JP3068250B2 - Speech synthesizer - Google Patents

Speech synthesizer

Info

Publication number
JP3068250B2
JP3068250B2 JP3180668A JP18066891A JP3068250B2 JP 3068250 B2 JP3068250 B2 JP 3068250B2 JP 3180668 A JP3180668 A JP 3180668A JP 18066891 A JP18066891 A JP 18066891A JP 3068250 B2 JP3068250 B2 JP 3068250B2
Authority
JP
Japan
Prior art keywords
frame
threshold value
speech
gain
spectrum information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3180668A
Other languages
Japanese (ja)
Other versions
JPH0527791A (en
Inventor
潤 亀谷
世光 友竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3180668A priority Critical patent/JP3068250B2/en
Publication of JPH0527791A publication Critical patent/JPH0527791A/en
Application granted granted Critical
Publication of JP3068250B2 publication Critical patent/JP3068250B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、規則合成方式を用い
て、予めフレーム毎に分析したスペクトル情報を含む複
数の音声情報パラメータをフレーム単位で合成し音声発
声を可能とする音声合成器に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech synthesizer for synthesizing speech by synthesizing a plurality of speech information parameters including spectrum information previously analyzed for each frame by frame using a rule synthesis method.

【0002】[0002]

【従来の技術】従来のこの種の音声合成器では、文章を
一定時間長のフレーム毎に分析して得た音声情報パラメ
ータを用いて音声合成する場合、一定フレーム時間毎に
例えば、スペクトル情報と残差(パルス)などのパラメ
ータにより合成している。このような音声合成器で高速
音声発声を行う場合は、スペクトル情報について有声ま
たは無声、母音または子音の判定を行い、有声もしくは
母音と判定されたフレームを間引いている(例えば、特
願平2−58609号明細書に記載の音声合成器)。
2. Description of the Related Art In a conventional speech synthesizer of this type, when speech is synthesized using speech information parameters obtained by analyzing a sentence for each frame of a fixed time length, for example, spectrum information and speech information are obtained at fixed frame times. Synthesis is performed using parameters such as a residual (pulse). When a high-speed voice utterance is performed by such a voice synthesizer, a voiced or unvoiced voice, a vowel or a consonant is determined with respect to the spectrum information, and the frames determined to be voiced or vowels are thinned out (for example, Japanese Patent Application No. Hei. No. 58609).

【0003】[0003]

【発明が解決しようとする課題】このような従来の音声
合成器では、有声もしくは、母音フレームを一定の基準
により間引いており、一定の発声速度で音声合成を行う
だけである。
In such a conventional speech synthesizer, voiced or vowel frames are thinned out based on a fixed reference, and only speech synthesis is performed at a fixed utterance speed.

【0004】[0004]

【課題を解決するための手段】本発明の音声合成器は、
一定時間長のフレーム毎に分析したスペクトル情報を含
む複数の音声情報パラメータを前記フレーム単位で編集
して合成する音声合成器において、前記スペクトル情報
の予測ゲイン算出手段と、予め定められた複数のしきい
値の中から一つのしきい値を外部より与えられる速度指
示に応じて選定する選択手段と、前記予測ゲインと前記
しきい値とを比較して前記予測ゲインが前記しきい値よ
り大きな場合にはフレーム間引きを行なわせる制御手段
とを備えている。
The speech synthesizer of the present invention comprises:
In a speech synthesizer for editing and synthesizing a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length in units of the frame, a predictive gain calculation means for the spectrum information and a plurality of predetermined gains are calculated. Selecting means for selecting one threshold value from the threshold values according to a speed instruction given from the outside, and comparing the predicted gain with the threshold value so that the predicted gain is larger than the threshold value. Is provided with control means for performing frame thinning.

【0005】[0005]

【実施例】次に、本発明について図面を参照して説明す
る。
Next, the present invention will be described with reference to the drawings.

【0006】図1は本発明の一実施例のブロック図であ
る。本実施例では、スペクトル情報を偏自己相関(PA
RCOR)方式により求めて与える。フレーム内の平均
予測残差信号電力(Pe)は、音声スペクトル情報の一
つの表現方法である偏自己相関係数(Ki)を用いて第
(1)式のように表される。
FIG. 1 is a block diagram of one embodiment of the present invention. In the present embodiment, the spectrum information is converted to partial autocorrelation (PA
(RCOR) method. The average prediction residual signal power (Pe) in the frame is expressed by Expression (1) using the partial autocorrelation coefficient (Ki), which is one expression method of speech spectrum information.

【0007】 [0007]

【0008】また、予側ゲイン(Pg)は、第(2)式
のように表される。
The preliminary gain (Pg) is expressed by the following equation (2).

【0009】 Pg =P0 −Pe (2) ただし、P0 は、入力音声の平均電力を示す。また、偏
自己相関係数の次数Pは通常10程度の値を選択する。
P g = P 0 −P e (2) where P 0 indicates the average power of the input voice. In addition, the order P of the partial autocorrelation coefficient usually selects a value of about 10.

【0010】この予測ゲイン(Pg)は、入力音声が母
音定常部などのような周期波の場合、偏自己相関係数k
i が1に近づくため、第(1)式および、第(2)式か
らわかるように、P0 に近い値をとる。また、入力音声
が子音部のような非周期波の場合、偏自己相関係数ki
が0に近づくため、予測ゲイン(Pg)は非常に小さな
値をとる。
When the input speech is a periodic wave such as a vowel stationary part, the predictive gain (Pg) is a partial autocorrelation coefficient k
Since i approaches 1, the value takes a value close to P 0 as can be seen from Expressions (1) and (2). When the input speech is an aperiodic wave such as a consonant part, the partial autocorrelation coefficient k i
Approaches 0, the prediction gain (Pg) takes a very small value.

【0011】従って予側ゲイン(Pg)の値をしきい値
と比較することにより、母音部フレームと子音フレーム
とを区別することができる。また、しきい値をP0 まで
変化させることにより、より安定した母音部フレームを
連続的に検出することができる。本方法を用いて、予め
母音フレーム判定しきい値を変えて行きながら、発声速
度に対応した複数のしきい値を学習しておき、これをし
きい値テーブルを作成する。
Therefore, by comparing the value of the preliminary gain (Pg) with the threshold value, the vowel frame and the consonant frame can be distinguished. By changing the threshold value to P 0 , a more stable vowel frame can be continuously detected. Using this method, a plurality of threshold values corresponding to the utterance speed are learned while changing the vowel frame determination threshold value in advance, and a threshold value table is created based on the learned threshold values.

【0012】図1において、まず、音声ファイル1か
ら、合成に必要な音声データを音声メモリ2に送り蓄え
る。音声メモリ2はフレーム制御回路10のタイミング
制御を受け、1フレーム分ずつ、スペクトル情報を予測
ゲイン算出器3とバッファメモリ6に転送し、残差をバ
ッファメモリ7に転送する。
In FIG. 1, first, voice data necessary for synthesis is transmitted from a voice file 1 to a voice memory 2 and stored. The audio memory 2 receives the timing control of the frame control circuit 10 and transfers the spectrum information to the prediction gain calculator 3 and the buffer memory 6 for each frame, and transfers the residual to the buffer memory 7.

【0013】予測ゲイン算出器3で予測ゲインが計算さ
れ、判定器4で、予め学習して定めたしきい値が格納さ
れているしきい値テーブル14のしきい値と比較する。
どのしきい値を用いるかは、ホストCPU12から与え
られる速度パラメータに応じて、しきい値制御回路13
で決定する。
The prediction gain is calculated by the prediction gain calculator 3 and compared with the threshold value of the threshold value table 14 in which the threshold value previously learned and stored is stored in the judgment unit 4.
Which threshold value to use is determined by a threshold control circuit 13 according to a speed parameter given from the host CPU 12.
Determined by

【0014】予測ゲインがしきい値以上の場合、すなわ
ち、間引かないと判断されたフレームは、判定器4に接
続しているバッファ制御回路11でバッファメモリ6お
よびバッファメモリ7を制御して、バッファメモリ6、
7に蓄積されている各データを合成フィルタ8に送出
し、合成フィルタ8は音声を合成を行い音声出力する。
When the predicted gain is equal to or larger than the threshold value, that is, when the frame is determined not to be thinned, the buffer memory 6 and the buffer memory 7 are controlled by the buffer control circuit 11 connected to the decision unit 4. Buffer memory 6,
Each of the data stored in 7 is sent to a synthesizing filter 8, and the synthesizing filter 8 synthesizes voice and outputs the voice.

【0015】予測ゲインがしきい値以下の場合は、バッ
ファメモリ6および7に蓄積されている1フレーム分の
スペクトル情報および残差を廃棄し、次の1フレーム分
の各データをバッファメモリ6、7に蓄積する。各デー
タの廃棄は、合成フィルタ8を一時中断することにより
行う。これにより、1フレーム分を間引いたことにな
る。
If the predicted gain is equal to or smaller than the threshold value, the spectral information and residual for one frame stored in the buffer memories 6 and 7 are discarded, and each data for the next one frame is stored in the buffer memory 6. 7 is accumulated. Discarding of each data is performed by temporarily stopping the synthesis filter 8. This means that one frame has been thinned out.

【0016】[0016]

【発明の効果】以上説明したように本発明によれば、予
め発声速度に対応したしきい値を学習により複数用意し
ておき、発声速度に応じてしきい値を変えて間引くフレ
ームの量を制御することにより、従来の音声合成器では
不可能であった発声速度の可変制御が可能となる。
As described above, according to the present invention, a plurality of threshold values corresponding to the utterance speed are prepared in advance by learning, and the amount of frames to be thinned out is changed by changing the threshold value according to the utterance speed. By performing the control, the utterance speed can be variably controlled, which is impossible with a conventional speech synthesizer.

【図面の簡単な説明】[Brief description of the drawings]

【図1】図1は本発明の実施例のブロック図。FIG. 1 is a block diagram of an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 音声ファイル 2 音声メモリ 3 予測ゲイン算出器 4 判定器 6,7 バッファメモリ 8 合成フィルタ 10 フレーム制御回路 11 バッファ制御回路 12 ホストCPU 13 しきい値制御回路 14 しきい値テーブル DESCRIPTION OF SYMBOLS 1 Audio file 2 Audio memory 3 Predictive gain calculator 4 Judgment device 6, 7 Buffer memory 8 Synthesis filter 10 Frame control circuit 11 Buffer control circuit 12 Host CPU 13 Threshold control circuit 14 Threshold table

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭64−9500(JP,A) 特開 昭61−122700(JP,A) 特開 平1−93795(JP,A) 特開 昭63−234299(JP,A) 特開 昭63−199399(JP,A) 特開 昭59−082608(JP,A) 特開 昭62−102300(JP,A) 特開 平3−206496(JP,A) 特許2758688(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 13/08 G10L 19/00 - 21/06 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-64-9500 (JP, A) JP-A-61-122700 (JP, A) JP-A-1-93795 (JP, A) JP-A 63-122 234299 (JP, A) JP-A-63-199399 (JP, A) JP-A-59-082608 (JP, A) JP-A-62-102300 (JP, A) JP-A-3-206496 (JP, A) Patent 2758688 (JP, B2) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 11/00-13/08 G10L 19/00-21/06 JICST file (JOIS)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 一定時間長のフレーム毎に分析したスペ
クトル情報を含む複数の音声情報パラメータを前記フレ
ーム単位で編集して合成する音声合成器において、前記
スペクトル情報の予測ゲイン算出手段と、予め定められ
た複数のしきい値の中から一つのしきい値を外部より与
えられる速度指示に応じて選定する選択手段と、前記予
測ゲインと前記しきい値とを比較して前記予測ゲインが
前記しきい値より大きな場合にはフレーム間引きを行な
わせる制御手段とを備えていることを特徴とする音声合
成器。
1. A speech synthesizer for editing and synthesizing a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length in frame units, and comprising: a predictive gain calculation means for the spectrum information; Selecting means for selecting one of the plurality of threshold values according to a speed instruction given from the outside, and comparing the predicted gain with the threshold value so that the predicted gain is And a control means for performing frame thinning when the threshold value is larger than the threshold value.
JP3180668A 1991-07-22 1991-07-22 Speech synthesizer Expired - Lifetime JP3068250B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3180668A JP3068250B2 (en) 1991-07-22 1991-07-22 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3180668A JP3068250B2 (en) 1991-07-22 1991-07-22 Speech synthesizer

Publications (2)

Publication Number Publication Date
JPH0527791A JPH0527791A (en) 1993-02-05
JP3068250B2 true JP3068250B2 (en) 2000-07-24

Family

ID=16087225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3180668A Expired - Lifetime JP3068250B2 (en) 1991-07-22 1991-07-22 Speech synthesizer

Country Status (1)

Country Link
JP (1) JP3068250B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001262891A (en) 2000-03-21 2001-09-26 Mitsubishi Electric Corp Vehicle key system
CN101303858B (en) * 2007-05-11 2011-06-01 华为技术有限公司 Method and apparatus for implementing fundamental tone enhancement post-treatment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2758688B2 (en) 1990-03-08 1998-05-28 日本電気株式会社 Speech synthesizer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2758688B2 (en) 1990-03-08 1998-05-28 日本電気株式会社 Speech synthesizer

Also Published As

Publication number Publication date
JPH0527791A (en) 1993-02-05

Similar Documents

Publication Publication Date Title
US5220629A (en) Speech synthesis apparatus and method
JP3083640B2 (en) Voice synthesis method and apparatus
EP1308928A2 (en) System and method for speech synthesis using a smoothing filter
JP2815579B2 (en) Word candidate reduction device in speech recognition
JPH086592A (en) Method and device for voice synthesis
EP0239394B1 (en) Speech synthesis system
US5995925A (en) Voice speed converter
JP3068250B2 (en) Speech synthesizer
JP3703394B2 (en) Voice quality conversion device, voice quality conversion method, and program storage medium
US20220165248A1 (en) Voice synthesis apparatus, voice synthesis method, and voice synthesis program
JP2758688B2 (en) Speech synthesizer
JP3264998B2 (en) Speech synthesizer
JP4684770B2 (en) Prosody generation device and speech synthesis device
JP3006240B2 (en) Voice synthesis method and apparatus
JPH1078791A (en) Pitch converter
JP2001034284A (en) Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program
JPH08248993A (en) Controlling method of phoneme time length
JPH04115299A (en) Method and device for voiced/voiceless sound decision making
WO2023182291A1 (en) Speech synthesis device, speech synthesis method, and program
Ebihara et al. Speech synthesis software with a variable speaking rate and its implementation on a 32-bit microprocessor
JP2956936B2 (en) Speech rate control circuit of speech synthesizer
JPH064090A (en) Method and device for text speech conversion
JPS61122700A (en) Synthetic voice pronunciation speed control system
JP3297221B2 (en) Phoneme duration control method
JPH04273300A (en) Voice synthesizing device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000418