JP3081300B2 - Residual driven speech synthesizer - Google Patents

Residual driven speech synthesizer

Info

Publication number
JP3081300B2
JP3081300B2 JP03253863A JP25386391A JP3081300B2 JP 3081300 B2 JP3081300 B2 JP 3081300B2 JP 03253863 A JP03253863 A JP 03253863A JP 25386391 A JP25386391 A JP 25386391A JP 3081300 B2 JP3081300 B2 JP 3081300B2
Authority
JP
Japan
Prior art keywords
speech
residual
unit
pitch
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03253863A
Other languages
Japanese (ja)
Other versions
JPH0594199A (en
Inventor
徹 北村
光男 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP03253863A priority Critical patent/JP3081300B2/en
Publication of JPH0594199A publication Critical patent/JPH0594199A/en
Application granted granted Critical
Publication of JP3081300B2 publication Critical patent/JP3081300B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、任意の言葉を発声する
ことが可能な規則音声合成装置、特に残差駆動を行う残
差駆動型規則音声合成装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a ruled speech synthesizer capable of uttering an arbitrary word, and more particularly to a residual drive type ruled speech synthesizer for performing residual drive.

【0002】[0002]

【従来の技術】近年、任意の文章から音声を合成するた
めの規則合成手法の研究が盛んであり、現在では、新聞
の校閲装置や盲人用読書機などに試作、実用化されてい
るものがある。
2. Description of the Related Art In recent years, research on a rule synthesis method for synthesizing speech from an arbitrary sentence has been actively conducted. is there.

【0003】任意の文章から音声を合成するための規則
合成装置は、例えば、テキスト入力に対し、文章解析を
行って読みがなやアクセントを決定し、音韻規則から、
必要な合成単位である音声素片(例えばCVC単位)を
決定して結合し、韻律規則から、声の高さなどを決定し
て、音声パラメータの時系列とピッチパターンを生成
し、これらのパラメータから音源とディジタルフィルタ
を構成することにより、合成音声を生成する。
A rule synthesizing apparatus for synthesizing speech from an arbitrary sentence, for example, performs a sentence analysis on a text input to determine a reading or an accent, and determines a phonetic rule from a phonetic rule.
A speech unit (for example, a CVC unit) which is a necessary synthesis unit is determined and combined, a pitch of voice is determined from a prosody rule, a time series of voice parameters and a pitch pattern are generated, and these parameters are generated. Then, a synthetic speech is generated by forming a sound source and a digital filter.

【0004】さて、このような音声合成手法に用いる音
声パラメータとしては、LPC、LSPなどの線形予測
系のパラメータやフォルマントなどが一般的であり、一
方、音源としては、メモリの削減と処理の簡単化のた
め、インパルスと白色雑音が用いられていた。
The speech parameters used in such a speech synthesis method are generally parameters of a linear prediction system such as LPC and LSP, formants, and the like. On the other hand, as a sound source, the memory is reduced and the processing is simple. For this purpose, impulse and white noise were used.

【0005】而して、LPC、LSPなどの線形予測系
の音声合成手法では、予測残差を駆動音源として用いる
ことにより、原音声に近い合成音声を得られることが知
られている。
[0005] It is known that in a speech synthesis technique of a linear prediction system such as LPC and LSP, a synthesized speech close to the original speech can be obtained by using a prediction residual as a driving sound source.

【0006】従って、文字等の入力により任意の音声を
発声可能な規則合成についても、駆動音源として残差を
入力することにより、上記の原理から、高品質な合成音
を得られることが期待され、このような残差駆動型の規
則音声合成装置が提案されており(特願平2−2494
93号)、これについて以下に概説する。
Accordingly, it is expected that a high-quality synthesized sound can be obtained from the above-described principle by inputting a residual as a driving sound source also in rule synthesis in which an arbitrary voice can be uttered by inputting characters or the like. Such a residual-driven rule-based speech synthesizer has been proposed (Japanese Patent Application No. 2-2494).
No. 93), which is outlined below.

【0007】図1は、既提案の残差駆動型の規則音声合
成装置の構成をしたものであり、この装置によると、発
声すべき文字列が文字列バッファ(1)に入力される
と、音韻記号列生成部(2)は入力された文字列を音韻
記号列に変換する。例えば、「た*べにき*た」(但
し、*はアクセント位置を示す記号)という文字列が入
力されると「tabenikita」という音韻記号列
に変換する。
FIG. 1 shows a configuration of a previously proposed residual-driven rule-based speech synthesizer. According to this device, when a character string to be uttered is input to a character string buffer (1), The phoneme symbol string generation unit (2) converts the input character string into a phoneme symbol string. For example, when a character string of "** ni *" (* is a symbol indicating an accent position) is input, the character string is converted to a phoneme symbol string of "tabenikitita".

【0008】次に、選択回路1(3)は、音韻記号列か
ら必要な音声素片を順次、決定選択し、音声素片メモリ
(4)に蓄えられた音声素片のうち必要な音声素片が、
音声素片接続部(5)で接続される。音声素片の単位と
しては、CVC(子音+母音+子音)、あるいは、CV
(子音+母音)とVC(母音+子音)を併用するものな
ども用いられるが、例として簡単のため、CV(子音+
母音)すなわち音節を単位とするものを考えると、「t
a、be、ni、ki、ta」が必要な音声素片として
順次選択され接続される。ここで接続された音声素片
は、音声パラメータとして音声パラメータバッファ
(6)に蓄えられ、係数として合成フィルタ(11)に
与えられる。
Next, the selection circuit 1 (3) sequentially determines and selects necessary speech units from the phoneme symbol string, and selects necessary speech units from the speech units stored in the speech unit memory (4). A piece
They are connected by a voice unit connection part (5). The unit of the speech unit is CVC (consonant + vowel + consonant) or CV
A combination of (consonant + vowel) and VC (vowel + consonant) may be used, but for simplicity, CV (consonant +
Vowels), that is, syllables,
"a, be, ni, ki, ta" are sequentially selected and connected as necessary speech units. The speech unit connected here is stored as a speech parameter in the speech parameter buffer (6), and given as a coefficient to the synthesis filter (11).

【0009】一方、アクセント位置等のイントネーショ
ンを表す記号も、発声すべき文字列とともに入力され、
文字列バッファ(1)から、ピッチパターン生成部
(7)に与えられると、ピッチパターン生成部(7)
は、発声文全体のピッチ(音程)を決定する。例えば、
「た*べにき*た」という入力の場合、「た」と「き」
にアクセントが存在するので、第図に示すようなピッ
チパターンとなる。ピッチパターン生成部(7)では、
文全体にピッチが降下するフレーズ成分と、アクセント
位置でピッチが高くなるアクセント成分が加えられて、
ピッチパターンが生成される。
On the other hand, a symbol representing intonation such as an accent position is also input together with a character string to be uttered,
When supplied from the character string buffer (1) to the pitch pattern generator (7), the pitch pattern generator (7)
Determines the pitch (pitch) of the entire utterance. For example,
In the case of input of "** ni **", "*" and "*"
Since accent is present, the pitch pattern shown in Figure 2. In the pitch pattern generator (7),
A phrase component with a pitch drop in the entire sentence and an accent component with a higher pitch at the accent position are added,
A pitch pattern is generated.

【0010】また、残差波形メモリ(8)には、図3に
示す如く、各音声素片に対応して、駆動音源として利用
するための残差波形が蓄えられており、選択回路1
(3)で決定選択された音声素片に対応して、必要な残
差波形が選択される。例の場合、「ta、be、ni、
ki、ta」の順で対応する残差波形が選択される。さ
らに、この残差波形メモリ(8)には、やはり図3に示
す如く、各音声素片に対してピッチの異なる複数の残差
波形が蓄えられており、ピッチパターン生成部(7)で
生成されたピッチに応じて、選択回路2(9)が適切な
ピッチの残差波形を選択決定し、駆動音源生成部(1
0)に蓄える。最後に、選択された残差波形は、駆動音
源生成部(10)で、ピッチパターン生成部(7)で生
成されたピッチに一致する値にピッチ変更が施され、所
望のピッチの残差波形が生成される。
As shown in FIG. 3, a residual waveform for use as a driving sound source is stored in the residual waveform memory (8) corresponding to each speech unit.
A necessary residual waveform is selected corresponding to the speech unit determined and selected in (3). In the example, "ta, be, ni,
The corresponding residual waveform is selected in the order of “ki, ta”. Further, as shown in FIG. 3, the residual waveform memory (8) stores a plurality of residual waveforms having different pitches for each speech unit, and the residual waveform is generated by the pitch pattern generator (7). The selection circuit 2 (9) selects and determines a residual waveform having an appropriate pitch in accordance with the pitch thus selected, and the driving sound source generator (1)
0). Lastly, the selected residual waveform is subjected to pitch change in the driving sound source generating section (10) to a value corresponding to the pitch generated by the pitch pattern generating section (7), and the residual waveform having a desired pitch is obtained. Is generated.

【0011】このようにして生成された残差波形は、駆
動音源として合成フィルタ(11)に入力され、合成フ
ィルタ(11)で合成音声が生成される。合成音声はD
/A変換器(12)を経て、スピーカ(13)から出力
される。
The residual waveform generated in this manner is input to the synthesis filter (11) as a driving sound source, and the synthesis filter (11) generates a synthesized voice. Synthesized voice is D
The signal is output from the speaker (13) via the / A converter (12).

【0012】このような既提案装置の駆動音源生成部
(10)の動作について、以下にさらに説明を加える。
The operation of the driving sound source generator (10) of the proposed device will be further described below.

【0013】まず、図3は残差波形メモリ(8)に蓄え
られている残差信号の波形データ例を示したものであ
る。このメモリ(8)の波形データは、CV(子音+母
音)構成の音節を音声素片の単位とした場合に対応して
おり、各音声素片に対応して、それぞれピッチ周期が異
なる3形態、即ち、高音用残差波形(ピッチ周期の短い
残差)、中音用残差波形(ピッチ周期の中程度残差)、
低音用残差波形(ピッチ周期の長い残差)が蓄えられて
いる。そして、このような残差波形メモリ(8)に蓄え
られている残差信号の波形データは、図4の駆動音源生
成部(10)によって、以下の如く処理されるのであ
る。
FIG. 3 shows an example of waveform data of a residual signal stored in the residual waveform memory (8). The waveform data in the memory (8) corresponds to a case where a syllable having a CV (consonant + vowel) configuration is used as a unit of a speech unit, and three pitch periods are different for each speech unit. That is, a treble residual waveform (residue with a short pitch cycle), a medium residual waveform (medium residual with a pitch cycle),
A low-frequency residual waveform (residual having a long pitch cycle) is stored. The waveform data of the residual signal stored in the residual waveform memory (8) is processed as follows by the driving sound source generation unit (10) of FIG.

【0014】即ち、図4の選択回路1(3)からの選択
信号により、スイッチ1(101)が選択され、必要な
音声素片に対応する残差波形が、残差波形メモリ(8)
から読み出され、残差波形バッファ1(102)に蓄え
られる。「た*べにき*た」の例では、まず、「ta」
の残差波形が、読み出される。次に、選択回路2(9)
からの選択信号により、スイッチ2(103)が選択さ
れ、適切なピッチの残差が選択され、残差波形バッファ
2(104)に蓄えられる。例では、図2に示すように
「た」のピッチは、400Hzと高いので、高音用の
「ta」の残差波形が選択されて、残差波形バッファ2
(104)に蓄えられる。最後に、ピッチパターン生成
部(7)で決定されたピッチになるように、残差波形の
ピッチ周期の変更がピッチ変更回路(105)で施され
る。例えば、高音用の「ta」の残差波形が、380H
zの音声から抽出されたものであれば、ピッチパターン
生成部(7)で決定された400Hzになるよう、20
Hzだけピッチが高くなる(ピッチ周期が短くなる)よ
うな変更が施される。
That is, the switch 1 (101) is selected by the selection signal from the selection circuit 1 (3) in FIG. 4, and the residual waveform corresponding to the required speech unit is stored in the residual waveform memory (8).
And is stored in the residual waveform buffer 1 (102). In the example of "** ni **", first, "ta"
Is read out. Next, the selection circuit 2 (9)
The switch 2 (103) is selected by the selection signal from, and a residual having an appropriate pitch is selected and stored in the residual waveform buffer 2 (104). In the example, as shown in FIG. 2, since the pitch of “ta” is as high as 400 Hz, the residual waveform of “ta” for the high tone is selected, and the residual waveform buffer 2
(104). Finally, the pitch change circuit (105) changes the pitch cycle of the residual waveform so that the pitch is determined by the pitch pattern generation unit (7). For example, the residual waveform of “ta” for treble is 380H
If it is extracted from the sound of z, the frequency is set to 20 Hz so that the frequency becomes 400 Hz determined by the pitch pattern generator (7).
A change is made such that the pitch is increased by Hz (the pitch period is shortened ).

【0015】尚、ピッチ変更回路(105)で行われる
残差波形のピッチの変更としては、例えば、ピッチを低
くする時は、途中に零データを挿入してピッチ周期を長
くし、ピッチを高くする時は、途中のデータを削除して
ピッチ周期を短くする「零詰め切り捨て法」が用いられ
る。
The pitch change of the residual waveform performed by the pitch change circuit (105) is performed, for example, when lowering the pitch, zero data is inserted in the middle to increase the pitch cycle and increase the pitch. In such a case, a "zero padding truncation method" is used in which data in the middle is deleted to shorten the pitch period.

【0016】ピッチ変更を大幅に行うと、音質の劣化が
生じるので、上記の残差駆動型規則合成装置の例では、
高音用、中音用、低音用の3段階のピッチの異なる残差
をあらかじめ残差波形メモリに蓄えておき、所望のピッ
チに近いピッチ周期の残差波形を用いることにより、ピ
ッチの変更量が少なくすむように工夫している。
If the pitch change is made drastically, the sound quality deteriorates. Therefore, in the example of the residual drive type rule synthesizing apparatus described above,
Residuals having three different pitches for high, medium, and low pitches are stored in advance in a residual waveform memory, and a residual waveform having a pitch cycle close to a desired pitch is used. We are devising to reduce it.

【0017】上述の如く、選択された音声素片に対応
し、かつ、所望のピッチに変更された残差波形が、駆動
音源として生成されるので、発音の自然性が高い合成音
声が得られるのである。
As described above, the residual waveform corresponding to the selected speech unit and changed to a desired pitch is generated as a driving sound source, so that a synthesized speech with a high naturalness of pronunciation can be obtained. It is.

【0018】以上に概説した残差駆動型音声合成装置に
よれば、その残差波形メモリ(8)に蓄えられているピ
ッチの異なる残差波形は、従来は図5に示す方法で作成
されるのが一般的であった。
According to the residual driving type speech synthesizer outlined above, residual waveforms having different pitches stored in the residual waveform memory (8) are conventionally created by the method shown in FIG. Was common.

【0019】即ち、例えば、3種類(3段階)のピッチ
の残差波形を作成する場合、図5(a)に示すように、
高音の入力音声を分析することにより、ピッチ周期の短
い、高音用の残差波形を抽出するのである。また、図5
(c)に示すように、低音の入力音声を分析することに
より、ピッチ周期の長い、低音用の残差波形を抽出す
る。中音のそれについても、図5(b)に示すように、
中音の入力音声を分析することにより、ピッチ周期の平
均的な長さの、低音用の残差波形を抽出するのである。
That is, for example, when three types (three stages) of residual waveforms are created, as shown in FIG.
By analyzing the treble input voice, a treble residual waveform having a short pitch cycle is extracted. FIG.
As shown in (c), a low-pitched input speech is analyzed to extract a low-pitched residual waveform having a long pitch cycle. As for the middle tone, as shown in FIG.
By analyzing the input sound of the middle sound, a residual waveform for a low sound having an average length of the pitch period is extracted.

【0020】[0020]

【発明が解決しようとする課題】前述した如く、従来の
残差駆動型規則合成装置では、ピッチの異なる残差波形
を利用して、駆動音源を生成する場合、音声素片として
蓄えられているLPCやLSPなどのパラメータと、駆
動音源として利用される残差波形が、異なる音声から分
析して抽出されたものとなるため、蓄えられた残差波形
を駆動音源とし、蓄えられた音声素片のパラメータを係
数として合成フィルタに通しても原音声を再生すること
ができず、生成される合成音声が劣化するという問題点
が生じる。
As described above, in the conventional residual driving rule synthesizing apparatus, when a driving sound source is generated using residual waveforms having different pitches, the driving sound sources are stored as speech units. Since the parameters such as LPC and LSP and the residual waveform used as the driving sound source are analyzed and extracted from different voices, the stored residual waveform is used as the driving sound source, and the stored speech unit is used. However, the original voice cannot be reproduced even if the parameter passes through the synthesis filter as a coefficient, and the generated synthesized voice deteriorates.

【0021】また、各残差波形ごとに、対応する高さの
音声から抽出した音声素片を利用すれば、劣化はなくな
ると考えられるが、この場合は各ピッチに対応して音声
素片を複数個、蓄えておくことが必要となり、メモリ量
が増大する。
It is considered that if a speech segment extracted from a speech of the corresponding pitch is used for each residual waveform, the deterioration will be eliminated. In this case, however, the speech segment corresponding to each pitch is removed. It is necessary to store a plurality of them, and the amount of memory increases.

【0022】[0022]

【課題を解決するための手段】本発明の残差駆動型音声
合成装置は、音声合成フィルタの逆フィルタからなる音
声分析フィルタの係数として、音声素片メモリの音声素
片単位の音声パラメータを用い、この分析フィルタにそ
れぞれ異なるピッチ周期の音声を入力することにより得
られるそれぞれ異なるピッチ周期の音声の残差信号の波
形データを抽出し、この波形データを残差波形メモリに
蓄えたものである。
A residual-drive speech synthesizer according to the present invention uses speech parameters in speech unit memory of a speech unit memory as coefficients of a speech analysis filter comprising an inverse filter of a speech synthesis filter. The waveform data of the residual signals of the voices having different pitch periods obtained by inputting the voices having different pitch periods into the analysis filter is extracted, and the waveform data is stored in a residual waveform memory.

【0023】[0023]

【作用】本発明の残差駆動型音声合成装置によれば、音
声を合成するために選択された音声素片に対して、どの
ような周期の残差波形が駆動音源として用いられても、
選択され得る全ての残差信号の波形データが、実際の合
成に供せられる音声パラメータそのものを係数とした逆
フィルタにより抽出されたものであるので、ピッチの変
更にかかわらず、合成時のパラメータと残差信号を抽出
した時に用いたパラメータが同一となるため、より自然
で高品質な合成音声が得られる。
According to the residual driving type speech synthesizer of the present invention, no matter what cycle the residual waveform is used as the driving sound source for the speech unit selected for synthesizing the speech,
Waveform data for all of the residual signal that may be selected are those which are extracted by the inverse filter with coefficient speech parameters themselves to be subjected to actual synthesis, regardless of the change of pitch, and the parameters of the synthesis Extract residual signal
Since the parameters used at the time of performing are the same , a more natural and high-quality synthesized speech can be obtained.

【0024】[0024]

【実施例】図6は、本発明の残差駆動型音声合成装置に
用いる残差信号の波形データの作成方法を示したもので
ある。図6(a)(b)(c)の各H(z)は、音声合
成フィルタの逆フィルタからなる音声分析フィルタの伝
達特性をゼット変換の記述で表したものである。これら
の図6(a)(b)(c)にそれぞれ示すように、高
音、中音、低音の3段階のピッチの異なる音声に対し
て、音声素片として蓄えられるLPC(線形予測係数、
編自己相関係数等)やLSPなどの音声パラメータを係
数とする逆フィルタをかけることにより、それぞれ高音
用、中音用、低音用の残差波形が生成される。
FIG. 6 shows a method of creating waveform data of a residual signal used in the residual drive type speech synthesizer of the present invention. Each of H (z) in FIGS. 6A, 6B, and 6C represents the transfer characteristic of a speech analysis filter composed of an inverse filter of a speech synthesis filter in a description of Z-transform. As shown in FIGS. 6 (a), 6 (b) and 6 (c), LPCs (linear prediction coefficients, linear prediction coefficients,
By applying an inverse filter that uses audio parameters such as autocorrelation coefficients and LSP as coefficients, residual waveforms for high-, medium-, and low-frequency sounds are generated, respectively.

【0025】本発明の残差駆動型音声合成装置は、各音
声素片に対し、図6に示したのと同様の方法で作成した
残差波形を図3に示す残差波形メモリに蓄え、図1に示
す構成で残差駆動型の規則合成を行うのである。
The residual-drive speech synthesizer of the present invention stores, for each speech unit, a residual waveform created by the same method as shown in FIG. 6 in a residual waveform memory shown in FIG. In the configuration shown in FIG. 1, the residual driving type rule synthesis is performed.

【0026】すなわち、発声すべき文字列が文字列バッ
ファ(1)に入力されると、音韻記号列生成部(2)は
入力された文字列を音韻記号列に変換する。例えば、
「た*べにき*た」(但し、*はアクセント位置を示す
記号)という文字列が入力されると「tabeni k
ita」という音韻記号列に変換する。
That is, when a character string to be uttered is input to the character string buffer (1), the phoneme symbol string generation unit (2) converts the input character string into a phoneme symbol string. For example,
When a character string of "** ni **" (* is a symbol indicating an accent position) is input, "tabenik" is input.
ita ".

【0027】次に、選択回路1(3)は、音韻記号列か
ら必要な音声素片を順次、決定選択し、音声素片メモリ
(4)に蓄えられた音声素片のうち必要な音声素片が、
音声素片接続部(5)で接続される。音声素片の単位と
しては、CVC(子音+母音+子音)、あるいは、CV
(子音+母音)とVC(母音+子音)を併用するものな
ども用いられるが、例として簡単のため、CV(子音+
母音)すなわち音節を単位とするものを考えると、「t
a、be、ni、ki、ta」が必要な音声素片として
順次選択され接続される。
Next, the selection circuit 1 (3) sequentially determines and selects necessary speech units from the phoneme symbol string, and selects necessary speech units among the speech units stored in the speech unit memory (4). A piece
They are connected by a voice unit connection part (5). The unit of the speech unit is CVC (consonant + vowel + consonant) or CV
A combination of (consonant + vowel) and VC (vowel + consonant) may be used, but for simplicity, CV (consonant +
Vowels), that is, syllables,
"a, be, ni, ki, ta" are sequentially selected and connected as necessary speech units.

【0028】接続された音声素片は、音声パラメータと
して音声パラメータバッファ(6)に蓄えられ、係数と
して合成フィルタ(11)に与えられる。
The connected speech segments are stored in the speech parameter buffer (6) as speech parameters, and given to the synthesis filter (11) as coefficients.

【0029】一方、アクセント位置等のイントネーショ
ンを表す記号も、発声すべき文字列とともに入力され、
文字列バッファ(1)から、ピッチパターン生成部
(7)に与えられると、ピッチパターン生成部(7)
は、発声文全体のピッチ(音程)を決定する。例えば、
「た*べに き*た」という入力の場合、「た」と
「き」にアクセントが存在するので、第図に示すよう
なピッチパターンとなる。
On the other hand, a symbol representing intonation such as an accent position is also input together with a character string to be uttered,
When supplied from the character string buffer (1) to the pitch pattern generator (7), the pitch pattern generator (7)
Determines the pitch (pitch) of the entire utterance. For example,
In the case of the input "ta * be ni * ta", the pitch pattern shown in FIG. 2 is obtained because accents exist in "ta" and "ki".

【0030】また、残差波形メモリ(8)には、各音声
素片に対応して、駆動音源として利用するための残差波
形が蓄えられており、選択回路1(3)で決定選択され
た音声素片に対応して、必要な残差波形が選択される。
例の場合、「ta、be、ni、ki、ta」の順で残
差波形が選択される。
The residual waveform memory (8) stores residual waveforms to be used as a driving sound source corresponding to each speech unit, and is determined and selected by the selection circuit 1 (3). The necessary residual waveform is selected in accordance with the speech unit.
In the case of the example, the residual waveform is selected in the order of “ta, be, ni, ki, ta”.

【0031】さらに、残差波形メモリ(8)には、各音
声素片に対して、本発明で提案する方法で作成したピッ
チの異なる複数の残差波形が蓄えられており、ピッチパ
ターン生成部(7)で生成されたピッチに応じて、選択
回路2(9)が適切なピッチの残差波形を選択決定し、
駆動音源生成部(10)に蓄える。最後に、選択された
残差波形は、駆動音源生成部(10)で、ピッチパター
ン生成部(7)で生成されたピッチに一致する値にピッ
チ変更が施され、所望のピッチの残差波形が生成され
る。
Further, the residual waveform memory (8) stores a plurality of residual waveforms having different pitches created by the method proposed in the present invention for each speech unit. According to the pitch generated in (7), the selection circuit 2 (9) selects and determines a residual waveform having an appropriate pitch,
It is stored in the driving sound source generation unit (10). Lastly, the selected residual waveform is subjected to pitch change in the driving sound source generating section (10) to a value corresponding to the pitch generated by the pitch pattern generating section (7), and the residual waveform having a desired pitch is obtained. Is generated.

【0032】このようにして生成された残差波形は、駆
動音源として合成フィルタ(11)に入力され、合成フ
ィルタ(11)で合成音声が生成される。合成音声はD
/A変換器(12)を経て、スピーカ(13)から出力
される。
The residual waveform generated in this manner is input to the synthesis filter (11) as a driving sound source, and the synthesis filter (11) generates a synthesized voice. Synthesized voice is D
The signal is output from the speaker (13) via the / A converter (12).

【0033】[0033]

【発明の効果】本発明の残差駆動型音声合成装置は、ピ
ッチの変更にかかわらず、合成時のパラメータと残差信
号を抽出した時に用いたパラメータが同一となるので、
接続すべき音声素片に対応して選択された残差波形であ
れば、いずれのピッチの残差波形を駆動音源として用い
ても、原音声に近い高品質な合成音声を得ることができ
る。
According to the present invention, the residual driving type speech synthesizer is capable of synthesizing parameters and residual signals regardless of a change in pitch.
Since the parameters used when extracting the numbers are the same ,
As long as the residual waveform of any pitch is used as the driving sound source, a high-quality synthesized voice close to the original voice can be obtained as long as the residual waveform is selected corresponding to the speech unit to be connected.

【図面の簡単な説明】[Brief description of the drawings]

【図1】残差駆動型規則合成装置の構成図、FIG. 1 is a configuration diagram of a residual driving rule synthesis device,

【図2】ピッチパターンの模式図、FIG. 2 is a schematic view of a pitch pattern,

【図3】残差波形メモリの模式図、FIG. 3 is a schematic diagram of a residual waveform memory,

【図4】駆動音源生成部の模式図、FIG. 4 is a schematic diagram of a driving sound source generation unit,

【図5】従来の残差波形作成方法の解説図、FIG. 5 is an explanatory diagram of a conventional residual waveform creation method,

【図6】本発明の残差駆動型音声合成装置で用いる残差
波形作成方法の解説図。
FIG. 6 is an explanatory diagram of a residual waveform creation method used in the residual drive type speech synthesizer of the present invention.

【符号の説明】[Explanation of symbols]

(1)・・・文字列バッファ、 (2)・・・音韻記号列生成部、 (3)・・・選択回路1、 (4)・・・音声素片メモリ、 (5)・・・音声素片接続部、 (6)・・・音声パラメータバッファ、 (7)・・・ピッチパターン生成部、 (8)・・・残差波形メモリ、 (9)・・・選択回路2、 (10)・・駆動音源生成部、 (11)・・合成フィルタ、 (12)・・D/A変換器、 (13)・・スピーカ、 (101)・スイッチ1、 (102)・残差波形バッファ1、 (103)・スイッチ2、 (104)・残差波形バッファ2、 (105)・ピッチ変更回路 (1) ... character string buffer, (2) ... phoneme symbol string generation unit, (3) ... selection circuit 1, (4) ... speech unit memory, (5) ... speech Unit connection unit, (6) voice parameter buffer, (7) pitch pattern generation unit, (8) residual waveform memory, (9) selection circuit 2, (10)・ ・ Drive sound generator, (11) ・ Synthesis filter, (12) ・ D / A converter, (13) ・ Speaker, (101) ・ Switch 1, (102) ・ Residual waveform buffer 1, (103) Switch 2, (104) Residual waveform buffer 2, (105) Pitch change circuit

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 21/06 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continued on the front page (58) Fields surveyed (Int. Cl. 7 , DB name) G10L 11/00-21/06 JICST file (JOIS)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 LPC、LSPなどの線形予測系の音声
特徴パラメータを音声素片単位で蓄えた音声素片メモ
リ、発声すべき音声の音声素片を示す記号列を生成する
音韻記号列生成部、及び該音韻記号列生成部により生成
された記号列に基づいて音声素片メモリから読み出した
音声素片を順次接続する音声素片接続部を備えた音声特
徴パラメータ制御手段、 各音声素片毎に対応したピッチ周期の異なる複数の残差
信号の波形データ群を蓄えた残差波形メモリ、発声すべ
き音声のピッチ周期変化を示したピッチパターンを生成
するピッチパターン生成部、及び上記残差波形メモリの
音声素片に対応した残差信号の波形データ群の中から該
ピッチパターン生成部で決定された各時点でのピッチ周
期に応じた残差波形データを選択する残差選択回路を備
えた駆動音源制御手段、 該残差選択回路で選択された残差を駆動音源とすると共
に、上記該音声素片接続部によって接続された音声素片
の音声パラメータを係数として音声を合成する線形予測
系の音声合成フィルタを備えた音声合成手段からなる残
差駆動型音声合成装置に於て、 上記残差波形メモリに蓄えるべきピッチ周期の異なる複
数の残差信号の波形データは、これと対応する上記音声
素片メモリの音声素片の音声パラメータを係数として、
上記音声合成フィルタの逆フィルタからなる音声分析フ
ィルタに、それぞれ異なるピッチ周期の音声を入力する
ことにより得ることを特徴とした残差駆動型音声合成装
置。
1. A speech unit memory storing speech feature parameters of a linear prediction system such as LPC and LSP for each speech unit, and a phoneme symbol sequence generation unit for generating a symbol sequence indicating a speech unit of a speech to be uttered. And a speech feature parameter control means comprising a speech unit connection unit for sequentially connecting speech units read from the speech unit memory based on the symbol string generated by the phoneme symbol sequence generation unit, for each speech unit Residual waveform memory storing waveform data groups of a plurality of residual signals having different pitch periods, a pitch pattern generating unit for generating a pitch pattern indicating a pitch period change of a voice to be uttered, and the residual waveform A residual selection circuit for selecting residual waveform data according to a pitch cycle at each time point determined by the pitch pattern generation unit from a residual signal waveform data group corresponding to a speech unit in a memory. A driving sound source control means provided with a residual selected by the residual selection circuit as a driving sound source, and a linear synthesizing voice using coefficients of voice parameters of the voice unit connected by the voice unit connection unit. In a residual drive type speech synthesizer comprising a speech synthesizer provided with a speech synthesis filter of a prediction system, the waveform data of a plurality of residual signals having different pitch periods to be stored in the residual waveform memory correspond to this. The speech parameter of the speech unit of the speech unit memory
A residual-drive speech synthesizer characterized in that speech is obtained by inputting speech having different pitch periods to a speech analysis filter comprising an inverse filter of the speech synthesis filter.
JP03253863A 1991-10-01 1991-10-01 Residual driven speech synthesizer Expired - Fee Related JP3081300B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03253863A JP3081300B2 (en) 1991-10-01 1991-10-01 Residual driven speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03253863A JP3081300B2 (en) 1991-10-01 1991-10-01 Residual driven speech synthesizer

Publications (2)

Publication Number Publication Date
JPH0594199A JPH0594199A (en) 1993-04-16
JP3081300B2 true JP3081300B2 (en) 2000-08-28

Family

ID=17257179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03253863A Expired - Fee Related JP3081300B2 (en) 1991-10-01 1991-10-01 Residual driven speech synthesizer

Country Status (1)

Country Link
JP (1) JP3081300B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100429978B1 (en) * 1996-12-26 2004-07-27 엘지전자 주식회사 Device for preventing speech quality from deteriorating in text to speech system, especially in relation to dividing input excitation signals of a speech synthesis filter by distinguishing voiced sounds from voiceless sounds to prevent speech quality of the voiceless sounds from deteriorating
ES2263459T3 (en) * 1999-02-08 2006-12-16 Qualcomm Incorporated CONVERSATION SYSTEM BASED ON THE VARIABLE INDEX CONVERSATION CODING.
JP2001109489A (en) 1999-08-03 2001-04-20 Canon Inc Voice information processing method, voice information processor and storage medium

Also Published As

Publication number Publication date
JPH0594199A (en) 1993-04-16

Similar Documents

Publication Publication Date Title
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US4912768A (en) Speech encoding process combining written and spoken message codes
JPH031200A (en) Regulation type voice synthesizing device
US6212501B1 (en) Speech synthesis apparatus and method
JP3081300B2 (en) Residual driven speech synthesizer
JP5360489B2 (en) Phoneme code converter and speech synthesizer
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JPH08335096A (en) Text voice synthesizer
JP5175422B2 (en) Method for controlling time width in speech synthesis
JP2008058379A (en) Speech synthesis system and filter device
JP3059751B2 (en) Residual driven speech synthesizer
JP3394281B2 (en) Speech synthesis method and rule synthesizer
JP3083624B2 (en) Voice rule synthesizer
JPH09179576A (en) Voice synthesizing method
JP2703253B2 (en) Speech synthesizer
JPS5914752B2 (en) Speech synthesis method
JP2011180194A (en) Phoneme code-converting device, phoneme code database, and voice synthesizer
JP2573585B2 (en) Speech spectrum pattern generator
JP2004206144A (en) Fundamental frequency pattern generating method and program recording medium
JP2001312300A (en) Voice synthesizing device
JP3133347B2 (en) Prosody control device
JPH0553595A (en) Speech synthesizing device
Butler et al. Articulatory constraints on vocal tract area functions and their acoustic implications
JPH07140999A (en) Device and method for voice synthesis
JPH09325788A (en) Device and method for voice synthesis

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees