JP3133427B2 - Speech synthesizer - Google Patents

Speech synthesizer

Info

Publication number
JP3133427B2
JP3133427B2 JP03299688A JP29968891A JP3133427B2 JP 3133427 B2 JP3133427 B2 JP 3133427B2 JP 03299688 A JP03299688 A JP 03299688A JP 29968891 A JP29968891 A JP 29968891A JP 3133427 B2 JP3133427 B2 JP 3133427B2
Authority
JP
Japan
Prior art keywords
random
waveform
unit
speech
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03299688A
Other languages
Japanese (ja)
Other versions
JPH05108095A (en
Inventor
信英 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03299688A priority Critical patent/JP3133427B2/en
Publication of JPH05108095A publication Critical patent/JPH05108095A/en
Application granted granted Critical
Publication of JP3133427B2 publication Critical patent/JP3133427B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、音声素片相当の情報を
重ね合わせることにより音声を合成する音声合成装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech synthesizer for synthesizing speech by superimposing information corresponding to speech units.

【0002】従来、特開平1−239292号公報に開
示されているような音声合成装置が知られている。この
音声合成装置では、ゼロ位相インパルス応答波形を音声
素片波形として用い、音声素片波形の振幅と重ね合わせ
周期とを乱数でランダムに指示して与えることにより、
人間の肉声に近い自然な無声音の合成を行なうことを意
図している。
2. Description of the Related Art A speech synthesizer as disclosed in Japanese Patent Application Laid-Open No. 1-239292 has been known. In this speech synthesizer, the zero-phase impulse response waveform is used as a speech segment waveform, and the amplitude of the speech segment waveform and the superimposition period are randomly specified and given by random numbers, thereby giving
It is intended to synthesize natural unvoiced sounds close to human voice.

【0003】具体的には、雑音信号のインパルス応答波
形に等間隔(約0.17m秒間隔)にランダムな値を掛
け合わせることによってインパルス応答波形の振幅をラ
ンダムに変化させ、また、重ね合わせ周期については、
図11に示すように、次に重ね合わせるタイミングを前
のタイミングから乱数(“1”から“5”までの整数
値)で与え、これにより、図中、R1,R2,R3で示
すように重ね合わせ周期をランダムに与えていた。
More specifically, the amplitude of the impulse response waveform is changed randomly by multiplying the impulse response waveform of the noise signal by a random value at regular intervals (approximately 0.17 msec). about,
As shown in FIG. 11, the next superimposition timing is given by a random number (an integer value from “1” to “5”) from the previous timing, whereby the superimposition is performed as indicated by R1, R2, and R3 in the figure. The matching cycle was given at random.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声合成装置では、インパルス応答波形,すな
わち音声素片波形にランダムな値を掛け合わせて、その
振幅をランダムにしているので、合成音声としての無声
音のスペクトル特性が損なわれるという問題があった。
すなわち、音声素片波形の振幅をランダムにすることに
よって人間が実際に発声する無声音のスペクトル特性を
良好に近似することができなくなる。
However, in the above-described conventional speech synthesizer, the amplitude is made random by multiplying the impulse response waveform, that is, the speech unit waveform by a random value, and thus the synthesized speech is synthesized. There is a problem that the spectral characteristics of the unvoiced sound are lost.
That is, by making the amplitude of the speech unit waveform random, the spectral characteristics of unvoiced sound actually uttered by a human cannot be satisfactorily approximated.

【0005】また、上述した従来の音声合成装置では、
重ね合わせ周期をランダムにすることによって位相特性
をランダム化しているが、この重ね合わせでは、次に重
ね合わせるタイミングが1つ前のタイミングに影響され
ていることから、重なりが一様にならず、重ね合わせ後
の波形のパワーが大きく変動するという問題があり、ま
た、位相特性のランダムさが十分でないという問題があ
った。従って、この音声合成装置では、人間の肉声に近
いより自然な無声音を合成するには限界があった。
In the above-mentioned conventional speech synthesizer,
Although the phase characteristics are randomized by making the superimposition cycle random, in this superimposition, since the next superimposition timing is affected by the immediately preceding timing, the overlap is not uniform, There is a problem that the power of the waveform after the superposition greatly varies, and there is a problem that the randomness of the phase characteristics is not sufficient. Therefore, this speech synthesizer has a limit in synthesizing a more natural unvoiced sound close to the real human voice.

【0006】本発明は、無声音を合成する場合にも、人
間の肉声により近い自然な合成音声を生成することの可
能な音声合成装置を提供することを目的としている。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a speech synthesizer capable of generating a natural synthesized speech closer to the real human voice even when synthesizing an unvoiced sound.

【0007】[0007]

【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、音声素片波形の位相をラン
ダム化してランダム位相音声素片波形を生成するランダ
ム位相化手段と、該ランダム位相化手段により生成され
た前記ランダム位相音声素片波形をずらしながら加算も
しくは重畳して無声音の音声波形を合成する波形重畳手
段とを備えていることを特徴としている。
In order to achieve the above object, the invention according to claim 1 comprises a randomizing means for randomizing the phase of a speech unit waveform to generate a random-phase speech unit waveform; And a waveform superimposing means for adding or superimposing the random phase speech unit waveforms generated by the random phase converting means while shifting them to synthesize an unvoiced speech waveform.

【0008】また、請求項2記載の発明は、波形重畳手
段が、ランダム位相音声素片波形の重ね合わせのタイミ
ングをランダム値で指示するランダム信号発生手段と、
前記ランダム信号発生手段により指示された前記重ね合
わせのタイミングにより、ランダム位相音声素片波形を
ずらして加算もしくは重畳して無声音の音声波形を合成
する重ね合わせ手段とを有していることを特徴としてい
る。
According to a second aspect of the present invention, the waveform superimposing means includes a random signal generating means for designating a superimposition timing of a random phase speech unit waveform by a random value;
And superimposing means for synthesizing an unvoiced sound waveform by shifting or adding or superimposing a random phase speech unit waveform by the superimposition timing instructed by the random signal generating means. I have.

【0009】また、請求項3記載の発明は、さらに、ラ
ンダム位相化後に音声素片波形に対して窓かけ処理を行
なう窓かけ処理手段が設けらけていることを特徴として
いる。
Further, the invention according to claim 3 is characterized in that a windowing processing means for performing windowing processing on a speech unit waveform after random phase conversion is further provided.

【0010】[0010]

【0011】[0011]

【作用】請求項1記載の発明では、無声音の音声合成を
行なう際に、音声素片波形の振幅ではなく位相をランダ
ム化する。この結果、得られる無声音の合成音声は、ス
ペクトル特性については、人間が実際に発声する無声音
のスペクトル特性を維持しつつ、位相特性についてだ
け、ホワイトノイズのように十分にランダムなものとな
る。
According to the first aspect of the invention, when performing voice synthesis of an unvoiced sound, the phase of the voice unit waveform is randomized instead of the amplitude. As a result, the synthesized voice of the unvoiced sound obtained is sufficiently random, such as white noise, only in phase characteristics, while maintaining the spectral characteristics of unvoiced sounds actually uttered by humans.

【0012】また、請求項2記載の発明では、音声素片
波形の位相のみならず、重ね合わせのタイミングをもラ
ンダムにし、この結果、位相特性がより一層ランダム化
される。
According to the second aspect of the present invention, not only the phase of the speech unit waveform but also the timing of superposition are made random, so that the phase characteristics are further randomized.

【0013】また、請求項3記載の発明では、ランダム
位相化後に音声素片波形に対して窓かけ処理がなされ、
始端および終端の不連続性が緩和されたランダム位相音
声素片波形を所定のタイミングでずらしながら重ね合わ
せることができる。
According to the third aspect of the present invention, the window processing is performed on the speech unit waveform after the random phase conversion,
The random-phase speech unit waveforms in which the discontinuity at the beginning and end are alleviated can be superimposed while being shifted at a predetermined timing.

【0014】[0014]

【0015】[0015]

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る音声合成装置の一実施例のブ
ロックである。図1を参照すると、この音声合成装置
は、音声素片波形1の位相をランダム化するランダム位
相化部2と、無声,有声のいずれの合成音声を生成する
かを切替える切替部3と、無声の合成音声を生成する場
合には、ランダム位相化部2でランダム位相化された音
声素片波形をずらしながら加算もしくは重畳し、有声の
合成音声を生成する場合には、音声素片波形1を所定の
ピッチ周期で順次ずらしながら加算もしくは重畳して、
合成音声を生成する波形重畳部4とを備えている。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing an embodiment of a speech synthesizer according to the present invention. Referring to FIG. 1, the speech synthesizer includes a random phase unit 2 for randomizing the phase of a speech unit waveform 1, a switching unit 3 for switching whether to generate unvoiced or voiced synthesized speech, and a voiceless unit. When the synthesized speech is generated, the speech unit waveform randomized by the random phase unit 2 is added or superimposed while being shifted, and when the voiced synthesized speech is generated, the speech unit waveform 1 is added. Addition or superimposition while shifting sequentially at a predetermined pitch cycle,
A waveform superimposing unit 4 for generating a synthesized voice.

【0016】上記音声素片波形1は、例えばLPC,L
SP,PSEなどの音声分析手法によって得られた音声
のスペクトル包絡を逆フーリエ変換することにより作成
され、従って、音声のスペクトル包絡を逆フーリエ変換
した波形に相当するものを表現したものとなっている。
The speech unit waveform 1 is, for example, LPC, L
It is created by performing an inverse Fourier transform on the spectral envelope of the voice obtained by a voice analysis technique such as SP or PSE, and thus represents a waveform equivalent to the inverse Fourier transformed waveform of the spectral envelope of the voice. .

【0017】また、ランダム位相化部2は、与えられた
音声素片波形1のスペクトル包絡特性をそのままの状態
に維持しながら、音声素片波形1の位相だけをランダム
化するようになっている。図2はランダム位相化部2の
構成例を示す図であり、図2の例では、ランダム位相化
部2は、音声素片波形1をフーリエ変換してスペクトル
Sを得るフーリエ変換部5と、乱数Rを発生する乱数発
生部6と、フーリエ変換部5で得られたスペクトルSの
位相を乱数Rでランダムに与え、逆フーリエ変換によっ
て再び時間領域の波形とする逆フーリエ変換部7とによ
り構成されている。
The randomizing section 2 randomizes only the phase of the speech unit waveform 1 while maintaining the spectral envelope characteristic of the given speech unit waveform 1 as it is. . FIG. 2 is a diagram showing an example of the configuration of the random phase shifter 2. In the example of FIG. 2, the random phase shifter 2 performs a Fourier transform on the speech unit waveform 1 to obtain a spectrum S, A random number generator 6 for generating a random number R, and an inverse Fourier transform unit 7 for randomly giving the phase of the spectrum S obtained by the Fourier transform unit 5 with the random number R, and re-forming the time domain waveform by inverse Fourier transform. Have been.

【0018】また、波長重畳部4については、無声音の
合成音声を生成する場合に、ランダム位相化された音声
素片波形を所定のピッチ周期でずらしながら加算もしく
は重畳するよう、これを構成することができる。
The wavelength superimposing unit 4 is configured to add or superimpose a random-phased speech unit waveform while shifting it at a predetermined pitch cycle when generating a synthetic voice of unvoiced sound. Can be.

【0019】次に、このような構成の音声合成装置の動
作について説明する。無声音の合成音声を生成しようと
するときには、切替部3は、“無声”側に切替わる。な
お、このような切替動作は、例えば、フレームが有声区
間であるか無声区間であるかの情報を切替部3に加える
ことによってなされても良いし、あるいはピッチデータ
の正,負の値をそれぞれ有声音情報,無声音情報として
切替部3に加えることによってなされても良い。ランダ
ム位相化部2では、これが例えば図2のような構成とな
っているときには、先づ、図3(a)に示すような音声
素片波形1をフーリエ変換してスペクトルSを得る。次
いで、このスペクトルSの位相を乱数Rでランダムに与
えて、逆フーリエ変換により再び時間領域の波形にす
る。このようにして得られた波形は、図3(b)に示す
ように、位相がランダム化されたものとなっており、波
形重畳部4では、このランダム位相化された図3(b)
に示す音声素片波形を例えば図3(c)に示すように所
定のピッチ周期Fでずらしながら加算もしくは重畳し、
これにより無声音の合成音声を得ることができる。
Next, the operation of the speech synthesizer having such a configuration will be described. When attempting to generate an unvoiced synthesized voice, the switching unit 3 switches to the “unvoiced” side. Note that such a switching operation may be performed, for example, by adding information indicating whether a frame is a voiced section or an unvoiced section to the switching unit 3, or by setting the positive and negative values of the pitch data respectively. It may be performed by adding to the switching unit 3 as voiced sound information and unvoiced sound information. When the random phase conversion unit 2 has a configuration as shown in FIG. 2, for example, the spectrum S is obtained by Fourier-transforming the speech unit waveform 1 as shown in FIG. Next, the phase of the spectrum S is randomly given by a random number R, and the waveform in the time domain is again formed by the inverse Fourier transform. The waveform thus obtained has a randomized phase as shown in FIG. 3 (b), and the waveform superimposing unit 4 uses the randomized phase in FIG. 3 (b).
Are added or superimposed while being shifted at a predetermined pitch period F, for example, as shown in FIG.
Thereby, a synthesized voice of unvoiced sound can be obtained.

【0020】このように、本実施例では、無声音の合成
音声時には、基本的に、音声素片波形1の振幅ではなく
位相をランダム化するようにしているので、得られる合
成音声としての無声音のスペクトル特性については、人
間が実際に発声する無声音のスペクトル特性を維持しつ
つ、位相特性についてだけ、これをホワイトノイズのよ
うに十分にランダムなものにすることができる。これに
より、従来に比べて、人間の肉声に近いより自然な無声
音の合成音声を生成することが可能となる。
As described above, in this embodiment, at the time of unvoiced synthesized speech, the phase of the speech unit waveform 1 is basically randomized instead of the amplitude. Regarding the spectral characteristics, it is possible to maintain the spectral characteristics of the unvoiced sound actually uttered by a human and make the phase characteristics sufficiently random like white noise only for the phase characteristics. As a result, it is possible to generate a more natural unvoiced synthesized voice that is closer to the real human voice than in the past.

【0021】なお、上記の例では、音声合成時にランダ
ム位相化部2を作動させてリアルタイムに位相のランダ
ム化を行なっているが、これのかわりに、予め音声素片
波形1をランダム位相化し、これをメモリ等に予め保持
させておき、無声音の音声合成時には、メモリ等に記憶
されているランダム位相音声素片波形を読み出して波形
重畳部4に送るように構成することも可能である。
In the above-mentioned example, the randomization of the phase is performed in real time by activating the random phase shifter 2 at the time of speech synthesis. This may be stored in a memory or the like in advance, and a random phase speech unit waveform stored in the memory or the like may be read out and sent to the waveform superimposing unit 4 at the time of voice synthesis of an unvoiced sound.

【0022】また、上記の例では、波形重畳部4におい
て、ランダム位相音声素片波形を図3(a),(b),
(c)のように所定のピッチ周期でずらしながら重ね合
わせ、この場合にも従来に比べて位相特性のランダムさ
をより良好なものに改善することができるが、さらに、
音声素片波形の位相をランダムにすることに加えて、音
声素片波形の重ね合わせのタイミングをもランダムにす
ることによって、合成音声としての無声音のスペクトル
特性については、もとの音声素片波形1のスペクトル特
性を忠実に再現しこれを維持することができる一方で、
位相特性については、これをほぼ完全なホワイトノイズ
のようにより一層ランダム化することができる。
In the above example, the waveform superposition unit 4 converts the random phase speech unit waveform into the waveforms shown in FIGS.
As shown in (c), the layers are overlapped while being shifted at a predetermined pitch cycle. In this case as well, the randomness of the phase characteristics can be improved to a better level as compared with the related art.
In addition to randomizing the phase of the speech unit waveform, the superposition timing of the speech unit waveform is also randomized, so that the spectral characteristics of unvoiced sound as synthesized speech While the spectral characteristics of No. 1 can be faithfully reproduced and maintained,
As regards the phase characteristic, it can be made more random like almost perfect white noise.

【0023】図4は音声素片波形1の重ね合わせのタイ
ミングをランダムにすることを意図した波形重畳部4の
構成例を示す図である。
FIG. 4 is a diagram showing an example of the configuration of the waveform superposition unit 4 intended to make the timing of superimposing the speech unit waveform 1 random.

【0024】図4の構成例では、波形重畳部4は、ラン
ダム信号を発生するランダム信号発生部11と、所定の
ピッチ周期のパルスを発生するピッチ周期発生部12
と、無声音の音声合成時には、ランダム信号発生部11
からのランダム信号を選択するように切替わり、有声音
の音声合成時には、ピッチ周期発生部12からのピッチ
周期信号を選択するように切替わる切替部13と、図1
に示す切替部3からの音声素片波形を切替部13からの
信号によるタイミングでずらして重ね合わせる重ね合わ
せ部14とを有している。
In the configuration example of FIG. 4, the waveform superimposing section 4 includes a random signal generating section 11 for generating a random signal and a pitch cycle generating section 12 for generating a pulse having a predetermined pitch cycle.
When the voice synthesis of the unvoiced sound is performed, the random signal generation unit 11
And a switching unit 13 that switches to select a random signal from the pitch period generating unit 12 during voice synthesis of a voiced sound.
And a superposition unit 14 for superposing the speech unit waveforms from the switching unit 3 as shown in FIG.

【0025】波長重畳部4が図4のような構成になって
いる場合、無声音の合成時には、切替部13は、ランダ
ム信号発生部11からのランダム信号(例えばランダム
パルス)を重ね合わせ部14に重ね合わせのタイミング
として与えるようになっている。このときには、切替部
3からのランダム位相音声素片波形が波長重畳部4に送
られると、波長重畳部4の重ね合わせ部14では、ラン
ダム位相音声素片波形を切替部13からのランダム信号
で指示された重ね合わせのタイミングでずらしながらラ
ンダム位相音声素片波形の重ね合わせを行ない、無声音
の音声波形を合成する。このようにして、得られた無声
音の合成音声は、音声素片波形の位相のみならず、重ね
合わせのタイミングもランダムであることによって、位
相特性がより一層ランダム化され、より人間の肉声に似
た自然な合成音声となる。
When the wavelength superimposing section 4 is configured as shown in FIG. 4, when synthesizing unvoiced sound, the switching section 13 applies a random signal (for example, a random pulse) from the random signal generating section 11 to the superposing section 14. This is given as the timing of superposition. At this time, when the random phase speech unit waveform from the switching unit 3 is sent to the wavelength superposition unit 4, the superimposition unit 14 of the wavelength superposition unit 4 converts the random phase speech unit waveform with the random signal from the switching unit 13. The random phase speech unit waveforms are superimposed while being shifted at the designated superimposition timing, and an unvoiced speech waveform is synthesized. In this way, the synthesized voice of the unvoiced sound obtained has not only the phase of the speech unit waveform but also the timing of superposition being random, so that the phase characteristics are further randomized and more similar to human voice. Natural synthesized speech.

【0026】また、図4の構成例において、図示のよう
に重ね合わせ部14の前段に窓掛処理部15が設けられ
ていても良い。この窓掛処理部15は、ランダム位相音
声素片波形に対し、その始端および終端の不連続性を緩
和するためのハミング窓,ハニング窓などの窓掛処理を
行なうようになっている。このような窓掛処理部15に
おいて、図5(a)に示すような窓WINが設定されて
いる場合には、図5(b)に示すようなランダム位相音
声素片波形は、この窓掛処理部15の窓WINによっ
て、図5(c)のように変形され、図5(b)の波形の
始端および終端の不連続性を緩和することができ、重ね
合わせ部14では、始端および終端の不連続性が緩和さ
れたランダム位相音声素片波形を所定のタイミングでず
らしながら重ね合わせる。この結果、不連続性さが減少
したより人間の肉声に近い自然な合成音声を生成するこ
とができる。
In the configuration example shown in FIG. 4, a windowing processing unit 15 may be provided at a stage preceding the overlapping unit 14 as shown. The windowing processing unit 15 performs windowing processing such as a Hamming window and a Hanning window on the random phase speech unit waveform to reduce discontinuity at the start and end thereof. When a window WIN as shown in FIG. 5A is set in such a windowing processing unit 15, a random-phase speech unit waveform as shown in FIG. Due to the window WIN of the processing unit 15, the waveform is deformed as shown in FIG. 5C, and the discontinuity at the start and end of the waveform in FIG. 5B can be reduced. Are superimposed while shifting at predetermined timing the random-phase speech unit waveforms in which the discontinuity is alleviated. As a result, it is possible to generate a natural synthesized speech that is closer to the real human voice than the discontinuity is reduced.

【0027】さらに、図4の構成において、ランダム信
号発生部11を図6に示すような構成にすることができ
る。すなわち、図6の構成例では、ランダム信号発生部
11は、乱数,すなわちランダム値rn(例えば“−2
0”から“20”の間の整数値)を発生する乱数発生器
51と、現在のランダム値rnと1つ前の時点でのラン
ダム値rn-1との差分(rn−rn-1)をとる差分器52
と、一定の周期T(例えば“50”)と差分器52から
の差分値(rn−rn-1)とを加算する加算器53とから
構成されている。
Further, in the configuration of FIG. 4, the random signal generator 11 can be configured as shown in FIG. That is, in the configuration example of FIG. 6, the random signal generator 11, a random number, i.e. the random value r n (eg "-2
0 a random number generator 51 for generating integer values) between "from" 20 ", the current random value r n and the random value r n-1 and the difference at the time of the previous (r n -r n -1 )
When, and a differential value (r n -r n-1) and adds the adder 53 from the differentiator 52 and a fixed period T (for example, "50").

【0028】ランダム信号発生部11がこのような構成
となっている場合には、ランダム位相音声素片波形の重
ね合わせのタイミング周期ln(n=1,2,3…)
は、図7に示すように、差分値(rn−rn-1)に一定の
周期Tを加算したものとなり、一定の周期Tからの変動
がランダムとなるように重ね合わせ部14に与えること
ができる。すなわち、従来では、図11に示したよう
に、重ね合わせるタイミングを前のタイミングから乱数
で与えているが、図6のランダム信号発生部11では、
音声素片波形の重ね合わせのタイミングを一定の周期T
からの変動がランダムとなるように重ね合わせ部14に
与えているので、これにより、音声素片波形の重なりが
一様となり、また、位相特性が十分にランダムなものと
なって、さらに一層人間の肉声に似た自然な合成音声を
生成することができる。
When the random signal generator 11 has such a configuration, the timing period l n (n = 1, 2, 3,...) Of superposition of random phase speech unit waveforms
As shown in FIG. 7, it is obtained by adding a fixed period T the difference value (r n -r n-1) , variations in the predetermined cycle T is given to the superposition section 14 such that the random be able to. That is, conventionally, as shown in FIG. 11, the superimposition timing is given by a random number from the previous timing, but the random signal generation unit 11 of FIG.
A fixed period T
Is given to the superimposing unit 14 so that the variation from the randomization is random, so that the overlap of the speech unit waveforms becomes uniform and the phase characteristics become sufficiently random, so that the human A natural synthesized voice similar to the real voice of the subject can be generated.

【0029】このように音声合成装置を図1,図4,図
6に示したような構成にし、音声素片波形の位相をラン
ダムにし、さらにはこれに加えて、重ね合わせのタイミ
ングをもランダムにすることが、人間の実際に発生する
無声音により一層近い無声音を合成する上で効果的であ
る。但し、図1の基本構成に基づき、種々の変形を行な
うこともできる。例えば、重ね合わせのタイミングをラ
ンダムにするかわりに、ランダム位相音声素片波形の振
幅をランダムにするように構成することも可能である。
As described above, the speech synthesizer is configured as shown in FIGS. 1, 4 and 6, and the phase of the speech unit waveform is made random. In addition, the superposition timing is also made random. Is effective in synthesizing an unvoiced sound that is closer to an unvoiced sound actually generated by a human. However, various modifications can be made based on the basic configuration of FIG. For example, instead of making the timing of superposition random, it is also possible to make the amplitude of the random phase speech unit waveform random.

【0030】図8,図10はこのような構成例を示す図
であり、図8の構成例では、波長重畳部4は、所定のピ
ッチ周期の信号を発生する周期発生部21と、無声音の
音声合成時に周期発生部21から出力される周期信号の
タイミングで切替部3からのランダム位相音声素片波形
の振幅の大きさをランダム値で指示する振幅値発生部2
2と、無声音の音声合成時に切替部3からのランダム位
相音声素片波形を振幅値発生部22からのランダム値と
積算する積算部23と、無声音の音声合成時には、積算
部23からの積算された波形を選択するように切替わ
り、有声音の音声合成時には、切替部3からの音声素片
波形1自体を選択するように切替わる切替部24と、切
替部24からの波形を周期発生部21からの周期信号に
よるタイミングでずらして重ね合わせる重ね合わせ部2
5とを有している。なお、振幅値発生部22は、例えば
乱数発生器によって構成されている。
FIG. 8 and FIG. 10 are diagrams showing such a configuration example. In the configuration example of FIG. 8, the wavelength superposition unit 4 includes a period generation unit 21 for generating a signal having a predetermined pitch period, and an unvoiced sound. An amplitude value generation unit 2 that indicates the magnitude of the amplitude of the random phase speech unit waveform from the switching unit 3 with a random value at the timing of the periodic signal output from the period generation unit 21 during speech synthesis.
2, an integrating unit 23 that integrates the random phase speech unit waveform from the switching unit 3 with the random value from the amplitude value generating unit 22 at the time of voice synthesis of unvoiced sound, and an integrating unit 23 at the time of voice synthesis of unvoiced sound. A switching unit 24 that switches to select the speech unit waveform 1 itself from the switching unit 3 during voice synthesis of a voiced sound, and a waveform generation unit that switches the waveform from the switching unit 24. Superimposing unit 2 that superimposes at a timing shifted by a periodic signal from 21
5 is provided. Note that the amplitude value generation unit 22 is configured by, for example, a random number generator.

【0031】このような構成では、図9に示すように、
周期発生部21からは重ね合わせ部25で波形をずらし
て重ねるためのタイミングを示す信号Pが出力され、振
幅値発生部22では、周期発生部21からの周期信号P
によって,すなわち重ね合わせ部25で波形をずらして
重ね合わせるタイミングごとに、振幅のランダム値Wを
更新して積算部23に与える。積算部23では、振幅の
ランダム値Wと切替部3からのランダム位相音声素片波
形とを積算することによって、ランダム位相音声素片波
形の振幅をランダムに変化させ、これを切替部24を介
して重ね合わせ部25に送る。重ね合わせ部25では、
位相のみならず振幅もランダムな音声素片波形を周期発
生部21からの周期信号Pによる重ね合わせのタイミン
グでずらしながら重ね合わせを行ない、無声音の音声波
形を合成する。このようにして得られた無声音の合成音
声は、位相のみならず振幅もランダムな音声素片波形を
所定のタイミングでずらし重ね合わせたものとなる。な
お、この際、音声素片波形の振幅は、波形を重ね合わせ
るごとにランダムに変化するので、従来の音声合成装置
に比べて、スペクトル特性への影響は少ない。
In such a configuration, as shown in FIG.
The period generating section 21 outputs a signal P indicating the timing at which the overlapping section 25 shifts and overlaps the waveform, and the amplitude value generating section 22 outputs the periodic signal P from the period generating section 21.
In other words, the random value W of the amplitude is updated and given to the integrating unit 23 at each timing when the waveforms are shifted and overlapped by the overlapping unit 25. The integrating unit 23 changes the amplitude of the random-phase speech unit waveform at random by integrating the random value W of the amplitude and the random-phase speech unit waveform from the switching unit 3, and changes this through the switching unit 24. To the overlapping section 25. In the overlapping section 25,
Superposition is performed while shifting the speech unit waveforms having not only a phase but also a random amplitude at the timing of the superposition by the periodic signal P from the period generating unit 21 to synthesize an unvoiced sound waveform. The synthesized voice of the unvoiced sound obtained in this way is obtained by shifting the speech unit waveforms having not only a phase but also a random amplitude at a predetermined timing and superimposing them. At this time, since the amplitude of the speech unit waveform changes randomly each time the waveform is superimposed, the influence on the spectral characteristics is smaller than that of the conventional speech synthesizer.

【0032】また、図10の構成例では、波形重畳部4
は、ランダム信号を発生するランダム信号発生部31
と、所定のピッチ周期の信号を発生するピッチ周期発生
部32と、無声音の音声合成時には、ランダム信号発生
部31からのランダム信号を選択するように切替わり、
有声音の音声合成時には、ピッチ周期発生部32からの
ピッチ周期信号を選択するように切替わる切替部33
と、無声音の音声合成時にランダム信号発生部31から
のランダム信号のタイミングで切替部3からのランダム
位相音声素片波形の振幅の大きさをランダム値で指示す
る振幅値発生部34と、無声音の音声合成時に切替部3
からのランダム位相音声素片波形を振幅値発生部34か
らのランダム値と積算する積算部35と、無声音の音声
合成時には、積算部35からの積算された波形を選択す
るように切替わり、有声音の音声合成時には、切替部3
からの音声素片波形1自体を選択するように切替わる切
替部36と、切替部36からの波形をランダム信号発生
部31からのランダム信号によるタイミングでずらして
重ね合わせる重ね合わせ部37とを有している。なお、
振幅値発生部34は、例えば乱数発生器によって構成さ
れている。
Further, in the configuration example of FIG.
Is a random signal generator 31 for generating a random signal
And a pitch cycle generating section 32 for generating a signal with a predetermined pitch cycle, and switching to select a random signal from the random signal generating section 31 during voice synthesis of unvoiced sound,
At the time of voice synthesis of voiced sound, a switching unit 33 that switches so as to select the pitch period signal from the pitch period generation unit 32
And an amplitude value generating unit 34 that indicates the magnitude of the amplitude of the random phase speech unit waveform from the switching unit 3 at a random signal timing from the random signal generating unit 31 at the time of synthesis of the unvoiced sound by a random value; Switching unit 3 during voice synthesis
The integration unit 35 integrates the random phase speech unit waveform from the random number from the amplitude value generation unit 34 with the random value from the amplitude value generation unit 34, and switches to select the waveform integrated from the integration unit 35 when unvoiced sound is synthesized. When the voice is synthesized, the switching unit 3
A switching unit 36 for switching to select the speech unit waveform 1 itself from the first unit, and a superposition unit 37 for superposing the waveform from the switching unit 36 at a timing shifted by the random signal from the random signal generation unit 31. are doing. In addition,
The amplitude value generator 34 is constituted by, for example, a random number generator.

【0033】このような構成では、無声音の音声合成時
において、ランダム信号発生部31からは重ね合わせ部
37で波形をずらして重ねるためのタイミングを示すラ
ンダム信号が出力され、振幅値発生部34ではこのラン
ダム信号によって,すなわち重ね合わせ部37で波形を
ずらして重ね合わせるタイミングごとに振幅のランダム
値を更新して積算部35に与える。積算部35では、振
幅のランダム値と切替部3からのランダム位相音声素片
波形とを積算することによって、ランダム位相音声素片
波形の振幅をランダムに変化させ、これを切替部36を
介して重ね合わせ部37に送る。重ね合わせ部37で
は、位相のみならず振幅もランダムな音声素片波形をラ
ンダム信号発生部31からのランダム信号による重ね合
わせのタイミングでずらしながら重ね合わせを行ない、
無声音の音声波形を合成する。このようにして、得られ
た無声音の合成音声は、位相のみならず振幅もランダム
な音声素片波形をランダムなタイミングでずらし重ね合
わせたものとなる。
In such a configuration, at the time of voice synthesis of unvoiced sound, the random signal generator 31 outputs a random signal indicating a timing for shifting and overlapping the waveforms in the superimposing section 37, and the amplitude value generating section 34 The random value of the amplitude is updated by the random signal, that is, at each timing of superimposing the waveform while being shifted by the superimposing unit 37, and the updated random value is provided to the integrating unit 35. The integrating unit 35 changes the amplitude of the random-phase speech unit waveform at random by integrating the random value of the amplitude and the random-phase speech unit waveform from the switching unit 3, and changes the amplitude through the switching unit 36. It is sent to the overlapping section 37. The superposition unit 37 performs superposition while shifting the speech unit waveform having not only a phase but also a random amplitude at the timing of superposition by the random signal from the random signal generation unit 31,
Synthesize unvoiced speech waveform. In this way, the obtained synthesized voice of unvoiced sound is obtained by superimposing speech unit waveforms having not only a phase but also a random amplitude at random timing.

【0034】また、図6に示したようなランダム信号発
生部11については、これを本発明の音声合成装置のみ
ならず、従来の音声合成装置にも適用することができ
る。例えば、このランダム信号発生部11を、音声素片
波形の振幅と重ね合わせ周期とを乱数でランダムに指示
する前述の従来の音声合成装置の波形重畳部に適用する
場合には、従来に比べて、ランダム振幅音声素片波形の
重ね合わせ時に重なりがより一様となり、位相特性のラ
ンダムさをより改善することができる。
The random signal generator 11 as shown in FIG. 6 can be applied not only to the speech synthesizer of the present invention but also to a conventional speech synthesizer. For example, when the random signal generating unit 11 is applied to the waveform superimposing unit of the above-described conventional speech synthesizer in which the amplitude of the speech unit waveform and the superimposing cycle are randomly designated by random numbers, the random signal generating unit 11 has a larger size than the conventional one. In addition, when the random amplitude speech unit waveforms are superimposed, the overlap becomes more uniform, and the randomness of the phase characteristics can be further improved.

【0035】[0035]

【発明の効果】以上に説明したように、請求項1記載の
発明では、無声音の音声合成を行なう際に、音声素片波
形の振幅ではなく位相をランダム化するので、得られる
合成音声としての無声音のスペクトル特性については、
人間が実際に発声する無声音のスペクトル特性を維持し
つつ、位相特性についてだけ、これをホワイトノイズの
ように十分にランダムなものにすることができ、従来に
比べて、人間の肉声に近いより自然な無声音の合成音声
を生成することができる。
As described above, according to the first aspect of the present invention, when voice synthesis of unvoiced sound is performed, the phase is randomized instead of the amplitude of the voice unit waveform, so that the synthesized voice obtained as the synthesized voice is obtained. Regarding the spectral characteristics of unvoiced sound,
While maintaining the spectral characteristics of the unvoiced sound actually uttered by humans, only the phase characteristics can be made sufficiently random like white noise, making it more natural and closer to the human voice than before. It is possible to generate an unvoiced synthesized voice.

【0036】また、請求項2記載の発明では、音声素片
波形の位相のみならず、重ね合わせのタイミングをもラ
ンダムにするので、位相特性がより一層ランダム化さ
れ、より人間の肉声に似た自然な合成音声を生成するこ
とができる。
According to the second aspect of the present invention, not only the phase of the speech segment waveform but also the timing of superposition are made random, so that the phase characteristics are further randomized and more similar to human voice. Natural synthesized speech can be generated.

【0037】また、請求項3記載の発明では、ランダム
位相化後に音声素片波形に対して窓かけ処理を行なう窓
かけ処理手段が設けらけているので、始端および終端の
不連続性が緩和されたランダム位相音声素片波形を所定
のタイミングでずらしながら重ね合わせることができ、
この結果、不連続性さが減少したより人間の肉声に近い
自然な合成音声を生成することができる。
According to the third aspect of the present invention, since windowing processing means for performing windowing processing on the speech unit waveform after random phase conversion is provided, discontinuity at the start and end is reduced. Can be superimposed while shifting the random phase speech unit waveform at a predetermined timing,
As a result, it is possible to generate a natural synthesized speech that is closer to the real human voice than the discontinuity is reduced.

【0038】[0038]

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る音声合成装置の一実施例のブロッ
ク図である。
FIG. 1 is a block diagram of an embodiment of a speech synthesizer according to the present invention.

【図2】ランダム位相化部の構成例を示す図である。FIG. 2 is a diagram illustrating a configuration example of a random phase shift unit.

【図3】(a),(b),(c)は波形重畳部における
波形の重ね合わせの一例を示す図である。
FIGS. 3A, 3B, and 3C are diagrams illustrating an example of superposition of waveforms in a waveform superposition unit. FIGS.

【図4】波形重畳部の構成例を示す図である。FIG. 4 is a diagram illustrating a configuration example of a waveform superimposing unit.

【図5】(a),(b),(c)は窓かけ処理の一例を
示す図である。
FIGS. 5A, 5B, and 5C are diagrams illustrating an example of a windowing process.

【図6】ランダム信号発生部の構成例を示す図である。FIG. 6 is a diagram illustrating a configuration example of a random signal generation unit.

【図7】本発明におけるランダム位相音声素片波形の重
ね合わせのタイミングの一例を示す図である。
FIG. 7 is a diagram showing an example of the timing of superposition of random phase speech unit waveforms in the present invention.

【図8】波形重畳部の構成例を示す図である。FIG. 8 is a diagram illustrating a configuration example of a waveform superimposing unit.

【図9】振幅のランダム値の更新処理を説明するための
図である。
FIG. 9 is a diagram for explaining a process of updating a random value of amplitude.

【図10】波形重畳部の構成例を示す図である。FIG. 10 is a diagram illustrating a configuration example of a waveform superimposing unit.

【図11】従来の音声合成装置における音声素片波形の
重ね合わせのタイミングの一例を示す図である。
FIG. 11 is a diagram showing an example of the timing of superposition of speech unit waveforms in a conventional speech synthesis device.

【符号の説明】[Explanation of symbols]

1 音声素片波形 2 ランダム位相化部 3 切替部 4 波形重畳部 5 フーリエ変換部 6 乱数発生部 11 ランダム信号発生部 12 ピッチ周期発生部 13 切替部 14 重ね合わせ部 15 窓掛処理部 51 乱数発生器 52 差分器 53 加算器 DESCRIPTION OF SYMBOLS 1 Speech unit waveform 2 Random phase conversion part 3 Switching part 4 Waveform superposition part 5 Fourier transformation part 6 Random number generation part 11 Random signal generation part 12 Pitch period generation part 13 Switching part 14 Superposition part 15 Window processing part 51 Random number generation Device 52 difference device 53 adder

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声素片波形を重ね合わせて合成する音
声合成装置において、音声素片波形の位相をランダム化
してランダム位相音声素片波形を生成するランダム位相
化手段と、該ランダム位相化手段により生成された前記
ランダム位相音声素片波形をずらしながら加算もしくは
重畳して無声音の音声波形を合成する波形重畳手段とを
備えていることを特徴とする音声合成装置。
1. A voice synthesizing apparatus for synthesizing voice segment waveforms by superimposing them, wherein a random phase generator generates a random phase voice unit waveform by randomizing a phase of the voice unit waveform, and the random phase generator. And a waveform superimposing means for adding or superimposing the random-phase speech unit waveforms generated by the above while shifting to synthesize an unvoiced speech waveform.
【請求項2】 請求項1記載の音声合成装置において、
前記波形重畳手段は、ランダム位相音声素片波形の重ね
合わせのタイミングをランダム値で指示するランダム信
号発生手段と、前記ランダム信号発生手段により指示さ
れた前記重ね合わせのタイミングにより、ランダム位相
音声素片波形をずらして加算もしくは重畳して無声音の
音声波形を合成する重ね合わせ手段とを有していること
を特徴とする音声合成装置。
2. The speech synthesizer according to claim 1, wherein:
The waveform superimposing means includes a random signal generating means for instructing a superposition timing of a random-phase speech unit waveform by a random value, and a random-phase speech unit based on the superposition timing instructed by the random signal generating means. A speech synthesizing device comprising: superimposing means for synthesizing an unvoiced speech waveform by shifting and adding or superimposing the waveforms.
【請求項3】 請求項1記載の音声合成装置において、
さらに、ランダム位相化後に音声素片波形に対して窓か
け処理を行なう窓かけ処理手段が設けらけていることを
特徴とする音声合成装置。
3. The speech synthesizer according to claim 1, wherein
The speech synthesis apparatus further includes windowing processing means for performing windowing processing on the speech unit waveform after randomization.
JP03299688A 1991-10-19 1991-10-19 Speech synthesizer Expired - Fee Related JP3133427B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03299688A JP3133427B2 (en) 1991-10-19 1991-10-19 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03299688A JP3133427B2 (en) 1991-10-19 1991-10-19 Speech synthesizer

Publications (2)

Publication Number Publication Date
JPH05108095A JPH05108095A (en) 1993-04-30
JP3133427B2 true JP3133427B2 (en) 2001-02-05

Family

ID=17875765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03299688A Expired - Fee Related JP3133427B2 (en) 1991-10-19 1991-10-19 Speech synthesizer

Country Status (1)

Country Link
JP (1) JP3133427B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4526979B2 (en) * 2005-03-04 2010-08-18 シャープ株式会社 Speech segment generator
JP4836766B2 (en) * 2006-12-13 2011-12-14 株式会社エルイーテック Physical random number generation device and physical random number generation circuit
JPWO2012035595A1 (en) * 2010-09-13 2014-01-20 パイオニア株式会社 Playback apparatus, playback method, and playback program

Also Published As

Publication number Publication date
JPH05108095A (en) 1993-04-30

Similar Documents

Publication Publication Date Title
JP2782147B2 (en) Waveform editing type speech synthesizer
US5029509A (en) Musical synthesizer combining deterministic and stochastic waveforms
WO2018084305A1 (en) Voice synthesis method
JPS6063599A (en) Language signal processing system
JP4813796B2 (en) Method, storage medium and computer system for synthesizing signals
EP0391545B1 (en) Speech synthesizer
JP3732793B2 (en) Speech synthesis method, speech synthesis apparatus, and recording medium
JP3133427B2 (en) Speech synthesizer
JP4490818B2 (en) Synthesis method for stationary acoustic signals
JP3756864B2 (en) Speech synthesis method and apparatus and speech synthesis program
JPS6249639B2 (en)
JP3394281B2 (en) Speech synthesis method and rule synthesizer
JP6834370B2 (en) Speech synthesis method
US20240198902A1 (en) Engine sound generating system based on string sound source, and engine sound generating method
JP6822075B2 (en) Speech synthesis method
JP3130305B2 (en) Speech synthesizer
JP2504179B2 (en) Noise sound generator
JPS58168097A (en) Voice synthesizer
JPS6295600A (en) Residual driving type voice synthesization system
JP2942260B2 (en) Speech synthesizer
JPS61215593A (en) Sound source signal generation
JP3317458B2 (en) Voice synthesis method
JPH02244100A (en) Noise sound source signal forming device
JP3934793B2 (en) Voice conversion device and voice conversion method
JPH0536797B2 (en)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees