JP3264998B2 - Speech synthesizer - Google Patents

Speech synthesizer

Info

Publication number
JP3264998B2
JP3264998B2 JP26099692A JP26099692A JP3264998B2 JP 3264998 B2 JP3264998 B2 JP 3264998B2 JP 26099692 A JP26099692 A JP 26099692A JP 26099692 A JP26099692 A JP 26099692A JP 3264998 B2 JP3264998 B2 JP 3264998B2
Authority
JP
Japan
Prior art keywords
frame
prediction gain
memory
speech
buffer memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26099692A
Other languages
Japanese (ja)
Other versions
JPH06110496A (en
Inventor
潤 亀谷
世光 友竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP26099692A priority Critical patent/JP3264998B2/en
Publication of JPH06110496A publication Critical patent/JPH06110496A/en
Application granted granted Critical
Publication of JP3264998B2 publication Critical patent/JP3264998B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は音声合成器に関し、特に
規則合成方式を用いた音声合成器などにおいて、予めフ
レーム毎に分析したスペクトル情報を含む複数の音声情
報パラメータをフレーム単位で合成して音声発声を可能
とする音声合成器に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech synthesizer, and more particularly to a speech synthesizer using a rule synthesizing method in which a plurality of speech information parameters including spectrum information analyzed in advance for each frame are synthesized for each frame. The present invention relates to a speech synthesizer that enables speech utterance.

【0002】[0002]

【従来の技術】従来、文章を一定時間長のフレームごと
に分析した音声情報パラメータを用いて音声を合成する
場合、一定フレーム時間ごとに例えばスペクトル情報と
残差(パルス)などのパラメータにより合成している。
このような音声合成器で高速音声発声を行う場合は、ス
ペクトル情報により有声または無声および母音または子
音の判定を行い、有声もしくは母音と判定されたフレー
ムをある区間毎一定に間引く方法により高速度音声発声
を行っている。
2. Description of the Related Art Conventionally, when speech is synthesized using speech information parameters obtained by analyzing a sentence for each frame of a fixed time length, the text is synthesized for each fixed frame time using, for example, spectral information and parameters such as a residual (pulse). ing.
When a high-speed voice utterance is performed by such a voice synthesizer, a voiced or unvoiced voice and a vowel or a consonant are determined based on spectrum information, and a high-speed voice is determined by a method of thinning out a frame determined as a voiced or vowel at a certain interval in a certain section. Uttering.

【0003】図3を参照すると、従来の音声合成器は、
一定時間長のフレームごとに分析したスペクトル情報を
含む複数の音声情報パラメータを前記フレーム単位で編
集して合成する音声合成器において、音声ファイル1か
らの合成に必要な音声データをa蓄えるとともに制御信
号d応じて1フレーム単位でスペクトル情報bを出力し
かつ残差cを出力する音声メモリ2と、音声メモリ2か
らのペクトル情報bの予測ゲインを算出する予測ゲイ
ン算出器3と、予測ゲイン算出器3からの予測ゲイン算
出値をしきい値メモリ5からの予測ゲインしきい値と比
較判定する判定器4と、音声メモリ2からのペクトル
情報bを格納するバッファメモリ6と、音声メモリ2か
らの残差cを格納するバッファメモリ7と、判定器4か
らの判定出力により制御信号を出力してバッファメモリ
6およびバッファメモリ7を制御するバッファ制御回路
11と、バッファメモリ6からの出力とバッファメモリ
7からの出力とを合成する合成フィルタ8と、フレーム
間引きのための制御信号dを出力して音声メモリ2を制
御するフレーム制御回路10とから構成される。
Referring to FIG. 3, a conventional speech synthesizer includes:
In a speech synthesizer for editing and synthesizing a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length in frame units, a speech data necessary for synthesis from the speech file 1 is stored and a control signal is stored. d a voice memory 2 to output the outputs and residual c spectral information b in frame by frame in response, the prediction gain calculator 3 for calculating a prediction gain for spectrum information b from the voice memory 2, the prediction gain calculated the prediction gain calculated value from vessel 3 and the prediction gain threshold from the threshold memory 5 and Comparative determination unit 4, a buffer memory 6 for storing the spectral information b from the voice memory 2, the voice memory 2 And a buffer memory 6 for storing a residual c from the buffer memory 6 and a buffer memory 6 for outputting a control signal based on the determination output from the determiner 4. A buffer control circuit 11 for controlling the memory 7, a synthesis filter 8 for synthesizing an output from the buffer memory 6 and an output from the buffer memory 7, and a control signal d for frame decimation to control the audio memory 2. And a frame control circuit 10.

【0004】[0004]

【発明が解決しようとする課題】この従来の音声合成器
では、有声もしくは母音フレームを一つの基準により間
引いているために、母音と判定される区間が一律に間引
かれしまうことによって、しきい値の設定状態あるいは
発声する言葉によっては母音フレームがほとんど間引か
れて音質の劣化が起こる。
In this conventional speech synthesizer, since a voiced or vowel frame is thinned out according to one criterion, a section determined to be a vowel is thinned out uniformly, thereby causing a threshold. Depending on the setting state of the value or the words to be uttered, the vowel frames are almost thinned out and the sound quality deteriorates.

【0005】[0005]

【課題を解決するための手段】本発明による音声合成器
は、一定時間長のフレームごとに分析したスペクトル情
報を含む複数の音声情報パラメータを前記フレーム単位
で編集して合成する音声合成器において、前記スペクト
ル情報の予測ゲインを算出する予測ゲイン算出手段と、
前記フレーム間引きを制御する制御手段とを有し、前
記予測ゲインが予測ゲインしきい値より小さい場合、か
つ前記予測ゲインのフレーム間変化量が少ない場合に前
記フレームを間引く。
According to the present invention, there is provided a speech synthesizer for editing a plurality of speech information parameters including spectrum information analyzed for each frame of a predetermined time length in units of the frame to synthesize the speech information. Prediction gain calculation means for calculating a prediction gain of the spectrum information,
Control means for controlling the thinning of the frame , wherein the frame is thinned when the prediction gain is smaller than a threshold value of the prediction gain and when the inter-frame change amount of the prediction gain is small.

【0006】また、本発明による音声合成器は、一定時
間長のフレームごとに分析したスペクトル情報を含む複
数の音声情報パラメータを前記フレーム単位で編集して
合成する音声合成器において、前記スペクトル情報の予
測ゲインを算出する予測ゲイン算出手段と、前記スペク
トル情報のピッチ周期を算出するピッチ周期算出手段
と、前記フレーム間引きを制御する制御手段とを有
し、前記予測ゲインが予測ゲインしきい値より小さい場
合、かつ前記スペクトル情報のピッチ周期が安定してい
る場合に前記フレームを間引く。
A speech synthesizer according to the present invention edits and synthesizes a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length in a frame unit, and synthesizes the speech information. a prediction gain calculation means for calculating a prediction gain, and pitch period calculating means for calculating a pitch period of the spectral information, and a control means for controlling the decimation of the frame, the prediction gain from the prediction gain threshold When the pitch is small and the pitch period of the spectrum information is stable, the frames are thinned out.

【0007】さらに、本発明による音声合成器は、一定
時間長のフレームごとに分析したスペクトル情報を含む
複数の音声情報パラメータを前記フレーム単位で編集し
て合成する音声合成器において、音声ファイルからの合
成に必要な音声データを蓄えるとともに第1の制御信号
に応じてフレーム単位でスペクトル情報を出力しかつ残
差を出力する音声メモリと、前記音声メモリからの
クトル情報の予測ゲインを算出する予測ゲイン算出手段
と、前記予測ゲイン算出手段からの前記予測ゲインの変
化量を算出する予測ゲイン変化量算出手段と、前記予測
ゲイン算出手段からの予測ゲイン算出値を予測ゲインし
きい値と比較判定するとともに前記予測ゲイン変化量算
出手段からの予測ゲインの変化量を予測ゲイン変化量し
きい値と比較判定する判定手段と、前記音声メモリから
の前記ペクトル情報を格納する第1のバッファメモリ
と、前記音声メモリからの前記残差を格納する第2のバ
ッファメモリと、前記判定手段からの判定出力により第
2の制御信号を出力して前記第1のバッファメモリを制
御するとともに第3の制御信号を出力して前記第2のバ
ッファメモリを制御するバッファ制御手段と、前記第1
のバッファメモリからの出力と前記第2のバッファメモ
リからの出力とを合成する合成フィルタと、前記フレー
間引きのための前記第1の制御信号を出力して前記
音声メモリを制御するフレーム制御手段とを備える。
Further, a voice synthesizer according to the present invention edits a plurality of voice information parameters including spectrum information analyzed for each frame of a fixed time length in frame units and synthesizes the parameters. a voice memory for outputting the spectral information and outputs a residual frame by frame in response to the first control signal with storing audio data required for the synthesis, the prediction of the scan Bae <br/> spectrum information from the audio memory Predictive gain calculating means for calculating a gain, predictive gain change amount calculating means for calculating a change amount of the predictive gain from the predictive gain calculating means, and a predictive gain threshold value calculated from the predictive gain calculating value from the predictive gain calculating means. And comparing the predicted gain change amount from the predicted gain change amount calculation means with a predicted gain change amount threshold value. A constant determining means, a first buffer memory for storing the spectrum information from the voice memory, a second buffer memory for storing the residual from the voice memory, judgment output from said determination means A buffer control means for outputting a second control signal to control the first buffer memory and outputting a third control signal to control the second buffer memory;
Synthesis filter and a frame control means for controlling the voice memory and outputting the first control signal for decimation of the frame of the output from the buffer memory synthesizes the output from the second buffer memory And

【0008】さらにまた、本発明による音声合成器は、
一定時間長のフレームごとに分析したスペクトル情報を
含む複数の音声情報パラメータをフレーム単位で編集し
て合成する音声合成器において、音声ファイルからの合
成に必要な音声データを蓄えるとともに第1の制御信号
に応じてフレーム単位でスペクトル情報を出力しかつ残
差を出力する音声メモリと、前記音声メモリからの
クトル情報の予測ゲインを算出する予測ゲイン算出手段
と、前記音声メモリからのペクトル情報のピッチ周期
を算出するピッチ周期算出手段と、前記予測ゲイン算出
手段からの予測ゲイン算出値を予測ゲインしきい値と比
較判定するとともに前記ピッチ周期算出手段からのピッ
チ周期の変化量をピッチ周期変化量しきい値と比較判定
する判定手段と、前記音声メモリからの前記ペクトル
情報を格納する第1のバッファメモリと、前記音声メモ
リからの前記残差を格納する第2のバッファメモリと、
前記判定手段からの判定出力により第2の制御信号を出
力して前記第1のバッファメモリを制御するとともに第
3の制御信号を出力して前記第2のバッファメモリを制
御するバッファ制御手段と、前記第1のバッファメモリ
からの出力と前記第2のバッファメモリからの出力とを
合成する合成フィルタと、前記フレーム間引きのため
の前記第1の制御信号を出力して前記音声メモリを制御
するフレーム制御手段とを備える。
[0008] Furthermore, the speech synthesizer according to the present invention comprises:
A speech synthesizer for editing and synthesizing a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length on a frame basis and storing speech data necessary for synthesis from a speech file and a first control signal a prediction gain calculation means for calculating a voice memory for outputting the outputs and residual spectrum information, the prediction gain of the scan Bae <br/> spectrum information from the voice memory on a frame-by-frame basis in response to, from the voice memory variation of the pitch period from the pitch period calculating means as well as comparison determining the pitch period calculating means, the prediction gain calculated value from the prediction gain calculation means and the prediction gain threshold to calculate the pitch period of the spectral information be stored and compared determining means and the pitch period variation threshold, the spectrum information from the voice memory A first buffer memory, a second buffer memory for storing the residual from the voice memory,
A buffer control unit that outputs a second control signal based on a determination output from the determination unit to control the first buffer memory and outputs a third control signal to control the second buffer memory; controlling a synthesis filter for synthesizing an output from said first of said second buffer memory and an output from the buffer memory, the voice memory and outputting the first control signal for decimation of the frame Frame control means.

【0009】[0009]

【実施例】スペクトル情報として偏自己相関(PARC
OR)方式を例にすると、フレーム内の平均予測残差信
号電力Peは、音声スペクトル情報の一つの表現方法で
ある偏自己相関係数kiを用いて式(1)のように表さ
れる。また、予測ゲインは、音声符号化処理の分野では
一般的な用語であり、”入力信号のエネルギーと予測残
差のエネルギーの比を予測利得(予測ゲイン)”として
定義される(「音声符号化」 守谷健弘著 電子情報通
信学会刊 P.23参照)。 スペクトル情報(ここでは
偏自己相関係数:ki )から算出した予測ゲインを本
発明では、以下で“kiの予測ゲイン”と記述すが、
“kiの予測ゲイン”とは”正規化予測ゲインPg”を
示すので、“kiの予測ゲイン”とは“正規化予測ゲイ
ンPg”のことである。 また、偏自己相関係数kiは、
予測ゲインを表すのに使用される係数であるため、正規
化予測ゲインPgをスペクトル情報の1つである偏自己
相関係数kiにより算出することができる。 よって、k
iの予測ゲインとは、スペクトル情報すなわち偏自己相
関 係数kiから算出した正規化予測ゲインPgを示
し、この正規化予測ゲインPgをここでは(2)式のよ
うに定義する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Partial autocorrelation (PARC)
Taking the (OR) method as an example, the average predicted residual signal power Pe in the frame is expressed as in equation (1) using the partial autocorrelation coefficient ki, which is one method of expressing speech spectrum information. In addition, the prediction gain is used in the field of speech coding processing.
It is a general term that says "input signal energy and
The ratio of the energy of the difference is referred to as “prediction gain (prediction gain)”.
Defined ("Speech coding" by Takehiro Moriya Electronic information communication
IEICE P.S. 23). Spectral information (here
The prediction gain calculated from the partial autocorrelation coefficient: ki)
In the invention, hereinafter, it is described as "predicted gain of ki".
“Ki prediction gain” means “normalized prediction gain Pg”
Therefore, the “prediction gain of ki” is referred to as “normalized prediction gay”.
Pg ″. The partial autocorrelation coefficient ki is
Normalized because it is a coefficient used to represent the expected gain
Of the normalized prediction gain Pg as one of the spectral information
It can be calculated by the correlation coefficient ki. Therefore, k
The predicted gain of i is the spectral information, ie, the partial self-phase
Indicates the normalized prediction gain Pg calculated from the function coefficient ki.
In this case, the normalized prediction gain Pg is calculated by the following equation (2).
Defined as follows.

【0010】 ここで、P0 は入力音声の平均電力を示す。また、偏自
己相関係数ki の次数p は通常10程度の値が選択され
る。
[0010] Here, P0 indicates the average power of the input voice. The order p of the partial autocorrelation coefficient ki is usually selected to be about 10.

【0011】この場合、kiで表すことができる正規化
予測ゲインPg入力音声が母音定常部などのような
周期波の場合は、一般に偏自己相関係数kiが、比較的
に安定した値をとり、正規化予測ゲインPgは同様に安
定して0に近い値をとる。入力音声が子音部のような非
周期波の場合は偏自己相関係数kiの値がばらつき、
また、このとき、正規化予測ゲインPgは、1に近い値
をとる。
In this case, the normalized prediction gain Pg , which can be represented by ki , generally indicates that the partial autocorrelation coefficient ki is relatively small when the input speech is a periodic wave such as a vowel stationary part.
And the normalized prediction gain Pg is similarly low.
And take a value close to 0. If the input speech is a non-periodic wave such as a consonant portion, variation value of the partial autocorrelation coefficients ki,
At this time, the normalized prediction gain Pg is a value close to 1.
Take.

【0012】上述より、正規化予測ゲインPgの値をし
きい値と比較するすることにより母音部フレームを検
出することができる。
As described above , a vowel frame can be detected by comparing the value of the normalized prediction gain Pg with the threshold value.

【0013】一般に定常な母音フレームは正規化予測ゲ
インPgが安定しているので、正規化予測ゲインPg
しきい値以下で変化量の少ない(小さくかつ安定してい
る所)フレームを見つけることによって安定している
母音フレームを見つけることができる。
In general, a normalized vowel frame has a stable normalized prediction gain Pg . Therefore, by finding a frame in which the normalized prediction gain Pg is equal to or smaller than a threshold value and has a small amount of change (a small and stable place). You can find a stable vowel frame.

【0014】また、ピッチ周期検出法では、スぺクトル
情報や残差のピークを探して算出する方法により実現す
ることができる。
Further, the pitch period detecting method can be realized by a method of searching for and calculating peaks of spectral information and residuals.

【0015】次に、本発明について図面を参照して説明
する。本発明の音声合成器の第1の実施例を示す図1を
参照すると、一定時間長のフレームごとに分析したスペ
クトル情報を含む複数の音声情報パラメータを前記フレ
ーム単位で編集して合成する音声合成器において、音声
ファイル1からの合成に必要な音声データaを蓄えると
ともに制御信号dに応じて1フレーム単位でスペクトル
情報bを出力しかつ残差cを出力する音声メモリ2と、
音声メモリ2からのペクトル情報bの予測ゲインを算
出する予測ゲイン算出器3と、予測ゲイン算出器3から
の予測ゲインの変化量を算出する変化量算出器12と、
予測ゲイン算出器3からの予測ゲイン算出値をしきい値
メモリ5からの予測ゲインしきい値と比較判定するとと
もに変化量算出器12からの予測ゲインの変化量をしき
い値メモリ5からの予測ゲイン変化量しきい値と比較判
定する判定器4と、音声メモリ2からのペクトル情報
bを格納するバッファメモリ6と、音声メモリ2からの
残差cを格納するバッファメモリ7と、判定器4からの
判定出力により制御信号を出力してバッファメモリ6お
よびバッファメモリ7を制御するバッファ制御回路11
と、バッファメモリ6からの出力とバッファメモリ7か
らの出力とを合成する合成フィルタ8と、フレーム間引
きのための制御信号dを出力して音声メモリ2を制御す
るフレーム制御回路10とから構成される。
Next, the present invention will be described with reference to the drawings. Referring to FIG. 1 showing a first embodiment of the speech synthesizer according to the present invention, a speech synthesis for editing and synthesizing a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length on a frame basis. A voice memory 2 for storing voice data a necessary for synthesis from a voice file 1 and outputting spectrum information b in units of one frame according to a control signal d and outputting a residual c;
A prediction gain calculator 3 for calculating a prediction gain for spectrum information b from the voice memory 2, a change amount calculator 12 for calculating a change amount of the prediction gain from a prediction gain calculator 3,
The prediction gain calculation value from the prediction gain calculator 3 is compared with the prediction gain threshold value from the threshold memory 5 and the change amount of the prediction gain from the change calculator 12 is predicted from the threshold memory 5. a gain variation threshold and comparator determination unit 4, a buffer memory 6 for storing the spectral information b from the voice memory 2, a buffer memory 7 for storing the residual c from the voice memory 2, the determination unit Buffer control circuit 11 which outputs a control signal based on the judgment output from control circuit 4 and controls buffer memory 6 and buffer memory 7
And a synthesizing filter 8 for synthesizing an output from the buffer memory 6 and an output from the buffer memory 7, and a frame control circuit 10 for outputting a control signal d for frame thinning to control the audio memory 2. You.

【0016】詳述すると、スペクトル情報と音源情報と
を分離した形で記憶し合成する残差駆動方式の音声合成
器では、まず、音声ファイル1から合成に必要な音声デ
ータaを音声メモリ2に蓄える。音声メモリ2はフレー
ム制御回路10からの制御信号dにより制御されて、ス
ペクトル情報bを1フレーム単位で予測ゲイン算出器3
とバッファメモリ6とへ転送するとともに残差cをバッ
ファメモリ7へ転送する。
More specifically, in a residual drive type voice synthesizer that stores and synthesizes spectrum information and sound source information in a separated form, first, voice data a necessary for synthesis is stored in a voice memory 2 from a voice file 1. store. The audio memory 2 is controlled by a control signal d from the frame control circuit 10 and converts the spectrum information b into a prediction gain calculator 3 for each frame.
To the buffer memory 6 and the residual c to the buffer memory 7.

【0017】予測ゲイン算出器3ではスペクトル情報b
から予測ゲインPg を計算してその算出結果を判定器4
および変化量算出器12へ送出する。判定器4では予測
ゲインPg の算出結果をしきい値メモリ5からのしきい
値と比較する。このとき変化量算出器12では予測ゲイ
ンPg の算出結果を数フレーム分格納できるようなリン
グバッファ等に格納しておく。
The predicted gain calculator 3 calculates the spectrum information b
, And calculates the prediction gain Pg from the calculation result.
And a change amount calculator 12. The decision unit 4 compares the calculation result of the prediction gain Pg with the threshold value from the threshold value memory 5. At this time, the change amount calculator 12 stores the calculation result of the prediction gain Pg in a ring buffer or the like capable of storing several frames.

【0018】ここで、予測ゲインPg の算出結果が予め
設定したしきい値以上の場合、すなわち、間引かないと
判断されたフレームは、判定器4に接続されているバッ
ファ制御回路11でバッファメモリ6およびバッファメ
モリ7を制御してバッファメモリ7に蓄積されている各
データを合成フィルタ8へ送出し、合成フィルタ8で音
声合成を行って音声出力端子9を介して出力する。
Here, when the calculation result of the prediction gain Pg is equal to or larger than a predetermined threshold value, that is, the frame determined not to be thinned is determined by the buffer control circuit 11 connected to the determination unit 4 in the buffer memory. By controlling the buffer 6 and the buffer memory 7, each data stored in the buffer memory 7 is sent to the synthesis filter 8, the synthesis filter 8 synthesizes the voice, and outputs it via the voice output terminal 9.

【0019】また、予測ゲインPg の算出結果が予め設
定したしきい値以下の場合は、母音フレームと判定され
て間引かれる候補になる。次に変化量算出器12では、
リングバッファに格納されている予測ゲインPg の算出
値の平均変化量を算出して判定器4へ送出する。判定器
4では変化量算出器12で算出した予測ゲインPg の平
均変化量が予め設定した変化量以下の場合にはバッファ
メモリ6およびバッファメモリ7に蓄積されている1フ
レーム分のスペクトル情報と残差cを廃棄し、次の1フ
レーム分の各データをバッファメモリ6およびバッファ
メモリ7に蓄積する。この残差cの廃棄は合成フィルタ
8における音声合成を一時中断することにより行う。こ
のような方法によりフレームの間引を行う。
If the calculation result of the prediction gain Pg is equal to or smaller than a predetermined threshold value, it is determined that the frame is a vowel frame and becomes a candidate to be thinned out. Next, in the change amount calculator 12,
The average change amount of the calculated value of the prediction gain Pg stored in the ring buffer is calculated and sent to the decision unit 4. When the average change amount of the prediction gain Pg calculated by the change amount calculator 12 is equal to or less than a predetermined change amount, the determination unit 4 determines whether the spectrum information of one frame stored in the buffer memories 6 and 7 The difference c is discarded, and the next one frame of data is stored in the buffer memory 6 and the buffer memory 7, respectively. The discard of the residual c is performed by temporarily stopping the speech synthesis in the synthesis filter 8. Frame thinning is performed by such a method.

【0020】本発明の音声合成器の第2の実施例を示す
図2を参照すると、一定時間長のフレームごとに分析し
たスペクトル情報を含む複数の音声情報パラメータをフ
レーム単位で編集して合成する音声合成器において、音
声ファイル1からの合成に必要な音声データaを蓄える
とともに制御信号dに応じて1フレーム単位でスペクト
ル情報bを出力しかつ残差cを出力する音声メモリ2
と、音声メモリ2からのペクトル情報bの予測ゲイン
を算出する予測ゲイン算出器3と、音声メモリ2からの
ペクトル情報bのピッチ周期を算出するピッチ周期算
出器13と、予測ゲイン算出器3からの予測ゲイン算出
値をしきい値メモリ5からの予測ゲインしきい値と比較
判定するとともにピッチ周期算出器13からのピッチ周
期の変化量をしきい値メモリ5からのピッチ周期変化量
しきい値と比較判定する判定器4と、音声メモリ4から
ペクトル情報bを格納するバッファメモリ6と、音
声メモリ2からの残差cを格納するバッファメモリ7
と、判定器4からの判定出力によ制御信号を出力して
バッファメモリ6およびバッファメモリ7を制御するバ
ッファ制御回路11と、バッファメモリ6からの出力と
バッファメモリ7からの出力とを合成する合成フィルタ
8と、フレーム間引きのための制御信号dを出力して音
声メモリ2を制御するフレーム制御回路10とから構成
される。
Referring to FIG. 2 showing a second embodiment of the speech synthesizer according to the present invention, a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length are edited and synthesized in frame units. A voice synthesizer for storing voice data a necessary for synthesis from the voice file 1 and outputting spectrum information b in frame units according to a control signal d and outputting a residual c;
When, a prediction gain calculator 3 for calculating a prediction gain for spectrum information b from the voice memory 2, from the voice memory 2
A pitch period calculator 13 for calculating a pitch period of the spectrum information b, the pitch period calculator with a predicted gain value calculated from the prediction gain calculator 3 for comparing determines that the prediction gain threshold from the threshold memory 5 the variation of the pitch period and the comparator determining unit 4 and the pitch period variation threshold from the threshold memory 5 from 13, a buffer memory 6 for storing the spectral information b from the speech memory 4, the audio Buffer memory 7 for storing residual c from memory 2
When, a buffer control circuit 11 for controlling the buffer memory 6 and the buffer memory 7 and outputs a by Ri control signal to the determination output from the determinator 4, and an output from the output buffer memory 7 from the buffer memory 6 Synthesis And a frame control circuit 10 that outputs a control signal d for frame thinning and controls the audio memory 2.

【0021】この第2の実施例の場合は第1の実施例の
場合と同様に、間引くフレームの候補になるかどうかの
予測ゲイン算出結果のしきい値判定がされる。この場合
は、ピッチ周期をピッチ周期算出器13のリングバッフ
ァ等に格納しておく。もし、間引くフレームの候補にな
った場合にはリングバッファに格納されているピッチ周
期を予め設定したピッチ周期と比較してほぼ一定になっ
ているか判定する。間引く場合は、図1の第1の実施例
の場合と同様の手順で行う。
In the case of the second embodiment, as in the case of the first embodiment, a threshold value of the prediction gain calculation result as to whether or not it is a candidate for a thinned frame is determined. In this case, the pitch cycle is stored in a ring buffer or the like of the pitch cycle calculator 13. If a frame to be thinned out becomes a candidate, a pitch cycle stored in the ring buffer is compared with a preset pitch cycle to determine whether the pitch cycle is substantially constant. When thinning out, the same procedure as in the first embodiment of FIG. 1 is performed.

【0022】[0022]

【発明の効果】以上説明したように本発明よれば、フレ
ームごとに予測ゲインを算出し、予測ゲインの変化量ま
たはピッチ周期の安定しているフレームを正確に判定し
て定常的に連続している母音のフレームのみを間引くこ
とにより音質劣下の少ない高速発声を可能にできる。
As described above, according to the present invention, a prediction gain is calculated for each frame, a frame in which the amount of change in the prediction gain or the pitch period is stable is accurately determined, and the frame is continuously and continuously determined. By thinning out only the vowel frames that are present, high-speed utterance with less deterioration in sound quality can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例の音声合成器を示すブロ
ック図である。
FIG. 1 is a block diagram showing a speech synthesizer according to a first embodiment of the present invention.

【図2】本発明の第2の実施例の音声合成器を示すブロ
ック図である。
FIG. 2 is a block diagram showing a speech synthesizer according to a second embodiment of the present invention.

【図3】従来の音声合成器を示すブロック図である。FIG. 3 is a block diagram showing a conventional speech synthesizer.

【符号の説明】[Explanation of symbols]

1 音声ファイル 2 音声メモリ 3 予測ゲイン算出器 4 判定器 5 しきい値メモリ 6 バッファメモリ 7 バッファメモリ 8 合成フィルタ 9 音声出力端子 10 フレーム制御回路 11 バッファ制御回路 12 変化量算出器 13 ピッチ周期算出器 a 音声データ b スペクトル情報 c 残差 d 制御信号 e 音声出力 DESCRIPTION OF SYMBOLS 1 Audio file 2 Audio memory 3 Predictive gain calculator 4 Judgment device 5 Threshold memory 6 Buffer memory 7 Buffer memory 8 Synthesis filter 9 Audio output terminal 10 Frame control circuit 11 Buffer control circuit 12 Change amount calculator 13 Pitch period calculator a audio data b spectrum information c residual error d control signal e audio output

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−259197(JP,A) 特開 昭61−290499(JP,A) 特開 昭62−102300(JP,A) 特開 昭63−234299(JP,A) 特開 平4−273300(JP,A) 特開 平5−27791(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 - 13/08 G10L 21/04 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-3-259197 (JP, A) JP-A-61-290499 (JP, A) JP-A-62-102300 (JP, A) JP-A 63-290 234299 (JP, A) JP-A-4-273300 (JP, A) JP-A-5-27791 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 13/00-13 / 08 G10L 21/04

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 一定時間長のフレームごとに分析したス
ペクトル情報を含む複数の音声情報パラメータを前記フ
レーム単位で編集して合成する音声合成器において、 前記スペクトル情報の予測ゲインを算出する予測ゲイン
算出手段と、前記フレーム間引きを制御する制御手段
とを有し、前記予測ゲインが予測ゲインしきい値より小
さい場合、かつ前記予測ゲインのフレーム間変化量が少
ない場合に前記フレームを間引くことを特徴とする音声
合成器。
1. A speech synthesizer that edits and synthesizes a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length in frame units, wherein a prediction gain calculation for calculating a prediction gain of the spectrum information. Means, and control means for controlling the thinning of the frame, wherein the frame is thinned when the prediction gain is smaller than the prediction gain threshold value and when the inter-frame change amount of the prediction gain is small. And a speech synthesizer.
【請求項2】 一定時間長のフレームごとに分析したス
ペクトル情報を含む複数の音声情報パラメータを前記フ
レーム単位で編集して合成する音声合成器において、 前記スペクトル情報の予測ゲインを算出する予測ゲイン
算出手段と、前記スペクトル情報のピッチ周期を算出す
るピッチ周期算出手段と、前記フレーム間引きを制御
する制御手段とを有し、前記予測ゲインが予測ゲインし
きい値より小さい場合、かつ前記スペクトル情報のピッ
チ周期が安定している場合に前記フレームを間引くこと
を特徴とする音声合成器。
2. A speech synthesizer for editing and synthesizing a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length on a frame basis, and calculating a prediction gain of the spectrum information. Means, a pitch cycle calculating means for calculating a pitch cycle of the spectrum information, and a control means for controlling the thinning of the frame , when the prediction gain is smaller than a prediction gain threshold value, and A speech synthesizer characterized in that the frames are thinned out when the pitch period is stable.
【請求項3】 一定時間長のフレームごとに分析したス
ペクトル情報を含む複数の音声情報パラメータを前記フ
レーム単位で編集して合成する音声合成器において、 音声ファイルからの合成に必要な音声データを蓄えると
ともに第1の制御信号に応じてフレーム単位でスペクト
ル情報を出力しかつ残差を出力する音声メモリと、 前記音声メモリからのペクトル情報の予測ゲインを算
出する予測ゲイン算出手段と、 前記予測ゲイン算出手段からの前記予測ゲインの変化量
を算出する予測ゲイン変化量算出手段と、 前記予測ゲイン算出手段からの予測ゲイン算出値を予測
ゲインしきい値と比較判定するとともに前記予測ゲイン
変化量算出手段からの予測ゲインの変化量を予測ゲイン
変化量しきい値と比較判定する判定手段と、 前記音声メモリからの前記ペクトル情報を格納する第
1のバッファメモリと、 前記音声メモリからの前記残差を格納する第2のバッフ
ァメモリと、 前記判定手段からの判定出力により第2の制御信号を出
力して前記第1のバッファメモリを制御するとともに第
3の制御信号を出力して前記第2のバッファメモリを制
御するバッファ制御手段と、 前記第1のバッファメモリからの出力と前記第2のバッ
ファメモリからの出力とを合成する合成フィルタと、 前記フレーム間引きのための前記第1の制御信号を出
力して前記音声メモリを制御するフレーム制御手段と、 を備えることを特徴とする音声合成器。
3. A speech synthesizer for editing and synthesizing a plurality of speech information parameters including spectrum information analyzed for each frame of a fixed time length in frame units, and storing speech data necessary for synthesis from a speech file. with a voice memory for outputting the spectral information in frame units and outputs a residual in response to the first control signal, and a prediction gain calculation means for calculating a prediction gain for spectrum information from the speech memory, the predicted gain Prediction gain change amount calculation means for calculating the change amount of the prediction gain from the calculation means; and a prediction gain calculation value from the prediction gain calculation means for making a comparison with a prediction gain threshold value; Determining means for comparing and determining the amount of change of the predicted gain from the threshold value with the predicted gain change amount threshold value; A first buffer memory for storing the spectrum of La, and outputs a second buffer memory for storing the residual from the voice memory, a second control signal by the determination output from said determination means Buffer control means for controlling the first buffer memory and outputting a third control signal to control the second buffer memory; and an output from the first buffer memory and the second buffer memory. a synthesis filter for synthesizing the output from the speech synthesizer, wherein the first control signal output to the and a frame control means for controlling the speech memory for decimation of the frame.
【請求項4】 一定時間長のフレームごとに分析したス
ペクトル情報を含む複数の音声情報パラメータを前記フ
レーム単位で編集して合成する音声合成器において、 音声ファイルからの合成に必要な音声データを蓄えると
ともに第1の制御信号に応じてフレーム単位でスペクト
ル情報を出力しかつ残差を出力する音声メモリと、 前記音声メモリからのペクトル情報の予測ゲインを算
出する予測ゲイン算出手段と、 前記音声メモリからのペクトル情報のピッチ周期を算
出するピッチ周期算出手段と、 前記予測ゲイン算出手段からの予測ゲイン算出値を予測
ゲインしきい値と比較判定するとともに前記ピッチ周期
算出手段からのピッチ周期の変化量をピッチ周期変化量
しきい値と比較判定する判定手段と、 前記音声メモリからの前記ペクトル情報を格納する第
1のバッファメモリと、 前記音声メモリからの前記残差を格納する第2のバッフ
ァメモリと、 前記判定手段からの判定出力により第2の制御信号を出
力して前記第1のバッファメモリを制御するとともに第
3の制御信号を出力して前記第2のバッファメモリを制
御するバッファ制御手段と、 前記第1のバッファメモリからの出力と前記第2のバッ
ファメモリからの出力とを合成する合成フィルタと、 前記フレーム間引きのための前記第1の制御信号を出
力して前記音声メモリを制御するフレーム制御手段と、 を備えることを特徴とする音声合成器。
4. A voice synthesizer for editing and synthesizing a plurality of voice information parameters including spectrum information analyzed for each frame of a fixed time length in frame units, and storing voice data necessary for synthesis from a voice file. with a voice memory for outputting the spectral information in frame units and outputs a residual in response to the first control signal, and a prediction gain calculation means for calculating a prediction gain for spectrum information from the speech memory, the voice memory changes in pitch period and pitch period calculating means for calculating a pitch period of the spectrum information, from the pitch period calculating means with comparing determining prediction gain calculated value from the prediction gain calculation means and the prediction gain threshold from comparison determination means and the pitch period variation threshold amount, the scan Baek from the audio memory A first buffer memory for storing the file information, a second buffer memory for storing the residual from the audio memory, and a second control signal output by the determination output from the determination means to output the first control signal. Buffer control means for controlling the buffer memory and outputting a third control signal to control the second buffer memory; and an output from the first buffer memory and an output from the second buffer memory. a synthesis filter for synthesizing speech synthesizer, wherein the first control signal output to the and a frame control means for controlling the speech memory for decimation of the frame.
JP26099692A 1992-09-30 1992-09-30 Speech synthesizer Expired - Fee Related JP3264998B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26099692A JP3264998B2 (en) 1992-09-30 1992-09-30 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26099692A JP3264998B2 (en) 1992-09-30 1992-09-30 Speech synthesizer

Publications (2)

Publication Number Publication Date
JPH06110496A JPH06110496A (en) 1994-04-22
JP3264998B2 true JP3264998B2 (en) 2002-03-11

Family

ID=17355618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26099692A Expired - Fee Related JP3264998B2 (en) 1992-09-30 1992-09-30 Speech synthesizer

Country Status (1)

Country Link
JP (1) JP3264998B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4313724B2 (en) * 2004-05-18 2009-08-12 日本電信電話株式会社 Audio reproduction speed adjustment method, audio reproduction speed adjustment program, and recording medium storing the same
JP6263868B2 (en) 2013-06-17 2018-01-24 富士通株式会社 Audio processing apparatus, audio processing method, and audio processing program
US10726851B2 (en) * 2017-08-31 2020-07-28 Sony Interactive Entertainment Inc. Low latency audio stream acceleration by selectively dropping and blending audio blocks

Also Published As

Publication number Publication date
JPH06110496A (en) 1994-04-22

Similar Documents

Publication Publication Date Title
US7277856B2 (en) System and method for speech synthesis using a smoothing filter
KR100651957B1 (en) System for using silence in speech recognition
US5293448A (en) Speech analysis-synthesis method and apparatus therefor
JP3180655B2 (en) Word speech recognition method by pattern matching and apparatus for implementing the method
EP0680033A2 (en) Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
WO2005109399A1 (en) Speech synthesis device and method
JPH1124699A (en) Voice coding method and device
EP1355296A2 (en) Keyword detection in a speech signal
GB2370401A (en) Speech recognition
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
KR20040028932A (en) Speech bandwidth extension apparatus and speech bandwidth extension method
US6910009B1 (en) Speech signal decoding method and apparatus, speech signal encoding/decoding method and apparatus, and program product therefor
JPH04158397A (en) Voice quality converting system
JPH0632020B2 (en) Speech synthesis method and apparatus
US8195463B2 (en) Method for the selection of synthesis units
US5995925A (en) Voice speed converter
JP3264998B2 (en) Speech synthesizer
JP3703394B2 (en) Voice quality conversion device, voice quality conversion method, and program storage medium
JP2002207499A (en) Method of encoding rhythm for speech encoder operating at extremely low bit rate
JP2002091467A (en) Voice recognition system
EP0421360A2 (en) Speech analysis-synthesis method and apparatus therefor
JPH0950288A (en) Device and method for recognizing voice
JPH113099A (en) Speech encoding/decoding system, speech encoding device, and speech decoding device
JP3068250B2 (en) Speech synthesizer
JP2000099099A (en) Data reproducing device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011204

LAPS Cancellation because of no payment of annual fees