JPH0916198A - Excitation signal generating device and excitation signal generating method in low bit rate vocoder - Google Patents

Excitation signal generating device and excitation signal generating method in low bit rate vocoder

Info

Publication number
JPH0916198A
JPH0916198A JP7160649A JP16064995A JPH0916198A JP H0916198 A JPH0916198 A JP H0916198A JP 7160649 A JP7160649 A JP 7160649A JP 16064995 A JP16064995 A JP 16064995A JP H0916198 A JPH0916198 A JP H0916198A
Authority
JP
Japan
Prior art keywords
signal
excitation signal
low
pulse train
mixing ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7160649A
Other languages
Japanese (ja)
Inventor
Akihiro Nakahara
聡宏 中原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Radio Co Ltd
Original Assignee
Japan Radio Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Radio Co Ltd filed Critical Japan Radio Co Ltd
Priority to JP7160649A priority Critical patent/JPH0916198A/en
Publication of JPH0916198A publication Critical patent/JPH0916198A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To provide a low bit rate vocoder in which a range of a reproduced voice is widened and tone can be improved. CONSTITUTION: An excitation signal generating device in a low bit rate vocoder calculates low frequency band energy value E included in a voice input signal in a low frequency band energy calculating means 10. A mixing ratio in which a pulse train signal and a white noise signal are mixed based on calculated low frequency band energy value E is obtained in a mixing ratio calculating means 12. An amplification factor of an amplifier 16 and a coefficient (a) of a first FIR filter 14 are switched based on this mixing ratio, and the pulse train signal and the white noise signal are added in an adder 20 with a desired mixing ratio. After normalization is performed in an amplifier 22 to adjust an effective value of a synthesized voice to an actual voice input signal, a final mixing excitation signal is outputted. Since an excitation signal is generated by mixing the white noise signal and the pulse train signal, tone of a reproduced voice can be improved.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、低ビットレートボコー
ダによる音声合成に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to speech synthesis by a low bit rate vocoder.

【0002】[0002]

【従来の技術】音声入力信号のホルマントを推定するこ
とにより、音声を合成する手法が知られている。例え
ば、図3には「音声のデジタル信号処理(下)、訳;鈴
木久喜,コロナ社」141頁に記載されている音声生成
モデルの構成ブロック図である。この図3に示されてい
るモデルによれば、有声音をピッチ周期、振幅及び低周
波側の3つのホルマント周波数で表現し、無声音を単に
振幅と零と極とで表している。このように音声信号のホ
ルマントに基づき、音声生成モデルを構築し、これに対
してインパルス発生機によって所定のピッチ周期を有す
るパルス列の信号と、白色雑音発生器によって、所定の
白色雑音をそれぞれ供給することにより、原音声信号が
合成される。
2. Description of the Related Art There is known a method of synthesizing a voice by estimating a formant of a voice input signal. For example, FIG. 3 is a block diagram of a voice generation model described on page 141 of “Digital signal processing of voice (lower), translation: Kuki Suzuki, Corona Publishing”. According to the model shown in FIG. 3, the voiced sound is represented by the pitch period, the amplitude, and the three formant frequencies on the low frequency side, and the unvoiced sound is simply represented by the amplitude, zero, and the pole. In this way, a voice generation model is constructed based on the formant of the voice signal, and a pulse train signal having a predetermined pitch period is supplied by an impulse generator and a predetermined white noise is supplied by a white noise generator. As a result, the original voice signal is synthesized.

【0003】従来のこの種の合成音には、上述したよう
にパルス列か、又は白色雑音のどちらかの信号のみが切
り換えて供給され、励振を行っていた。そして、それぞ
れ単一のパルス列は有声音を、そして白色雑音は無声音
を再現するのである。
As described above, only the pulse train signal or the white noise signal is switched and supplied to the conventional synthesized sound of this type to excite the sound. And each single pulse train reproduces voiced sound and white noise reproduces unvoiced sound.

【0004】[0004]

【発明が解決しようとする課題】このように、従来のボ
コーダにおいては、音声を合成するのに際し、単純な単
一のパルス励起信号(無声音の場合には白色雑音)が励
振に用いられているが、このような単純な単一のパルス
列の信号(又は白色雑音)では全ての音声の合成をする
ことは困難である。また、本来人間の音声は、有声音か
もしくは無声音かで完全に識別することは極めて困難な
ことであるため、有声音と無声音とで、励起を完全に切
り換える手法では、合成される音声の質には一定の限界
があった。
As described above, in the conventional vocoder, a simple single pulse excitation signal (white noise in the case of unvoiced sound) is used for excitation when synthesizing a voice. However, it is difficult to synthesize all voices with such a simple single pulse train signal (or white noise). In addition, since it is extremely difficult to completely distinguish human voices from voiced sounds or unvoiced sounds, it is very difficult to distinguish between voiced sounds and unvoiced sounds. Had certain limits.

【0005】本発明には、上記課題を解決するためにな
されたものであり、その目的は低ビットレートボコーダ
による音声合成において、有声音の合成に当ってその音
質を改善することを目的とする。
The present invention has been made to solve the above problems, and an object of the present invention is to improve the sound quality when synthesizing a voiced sound in speech synthesis by a low bit rate vocoder. .

【0006】[0006]

【課題を解決するための手段】上記課題を解決するため
に、第1の本発明は、音声入力信号のホルマントを推定
し、このホルマントに基づいて原音声入力信号を合成す
る低ビットレートボコーダに用いられる励起信号発生装
置において、前記音声入力信号の低域周波数成分のエネ
ルギーである低域エネルギー値を求める低域エネルギー
算出手段と、前記低域エネルギー算出手段において求め
られた低域エネルギー値に基づいて、パルス列信号とノ
イズ信号との混合比を求める混合比算出手段と、前記混
合比決定手段において求められた混合比に基づいて、パ
ルス列信号とノイズ信号とを混合し、混合励起信号を生
成する混合励起信号生成手段と、を含むことを特徴とす
る励起信号発生装置である。例えば、ノイズ信号として
は、白色雑音信号が好適である。
In order to solve the above-mentioned problems, a first aspect of the present invention provides a low bit rate vocoder which estimates a formant of a voice input signal and synthesizes an original voice input signal based on this formant. In the excitation signal generator used, based on the low frequency energy value obtained by the low frequency energy calculation means for obtaining the low frequency energy value which is the energy of the low frequency component of the voice input signal, and the low frequency energy calculation means. Then, the pulse train signal and the noise signal are mixed based on the mixture ratio calculating means for obtaining the mixture ratio of the pulse train signal and the noise signal, and the mixture ratio obtained by the mixture ratio determining means to generate the mixed excitation signal. And a mixed excitation signal generating means. For example, a white noise signal is suitable as the noise signal.

【0007】第2の本発明は、上記課題を解決するため
に、上記第1の本発明の励起信号発生装置において、前
記混合比算出手段は、前記低域エネルギー値と、所定の
しきい値とを比較し、この比較の結果に基づき、前記混
合比を算出することを特徴とする励起信号発生装置であ
る。
In order to solve the above-mentioned problems, a second aspect of the present invention is the excitation signal generator according to the first aspect of the present invention, wherein the mixing ratio calculating means includes the low-frequency energy value and a predetermined threshold value. Is compared, and the mixing ratio is calculated based on the result of this comparison.

【0008】第3の本発明は、上記課題を解決するため
に、上記第1の本発明の励起信号発生装置において、前
記混合励起信号生成手段は、前記パルス列信号の低域周
波数成分と、前記ノイズ信号の高域周波数成分とを混合
することを特徴とする励起信号発生装置である。
In order to solve the above-mentioned problems, a third aspect of the present invention is the excitation signal generator according to the first aspect of the present invention, wherein the mixed excitation signal generating means includes a low frequency component of the pulse train signal, and It is an excitation signal generator characterized by mixing with a high frequency component of a noise signal.

【0009】上記課題を解決するために、第4の本発明
は、音声入力信号のホルマントを推定し、このホルマン
トに基づいて原音声入力信号を合成する低ビットレート
ボコーダに用いられる励起信号発生方法において、前記
音声入力信号の低域周波数成分のエネルギーである低域
エネルギー値を求める低域エネルギー算出ステップと、
前記低域エネルギー算出ステップにおいて求められた低
域エネルギー値に基づいて、パルス列信号とノイズ信号
との混合比を求める混合比算出ステップと、前記混合比
決定ステップにおいて求められた混合比に基づいて、パ
ルス列信号とノイズ信号とを混合し、混合励起信号を生
成する混合励起信号生成ステップと、を含むことを特徴
とする励起信号発生方法である。
In order to solve the above problem, a fourth aspect of the present invention is an excitation signal generation method used in a low bit rate vocoder for estimating a formant of a voice input signal and synthesizing an original voice input signal based on the formant. In the low-pass energy calculation step for obtaining a low-pass energy value that is the energy of the low-pass frequency component of the voice input signal,
Based on the low band energy value obtained in the low band energy calculation step, based on the mixing ratio obtained in the mixing ratio calculation step for obtaining the mixing ratio of the pulse train signal and the noise signal, the mixing ratio determination step, And a mixed excitation signal generating step of generating a mixed excitation signal by mixing the pulse train signal and the noise signal, and the excitation signal generating method.

【0010】第5の本発明は、上記課題を解決するため
に、上記第1の本発明の励起信号発生方法において、前
記混合比算出ステップは、前記低域エネルギー値と、所
定のしきい値とを比較し、この比較の結果に基づき、前
記混合比を算出することを特徴とする励起信号発生方法
である。
In order to solve the above-mentioned problems, a fifth aspect of the present invention is the excitation signal generating method according to the first aspect of the present invention, wherein the mixing ratio calculation step comprises the low-range energy value and a predetermined threshold value. And a mixture ratio is calculated based on the result of this comparison.

【0011】第6の本発明は、上記課題を解決するため
に、上記第1の本発明の励起信号発生方法において、前
記混合励起信号生成ステップは、前記パルス列信号の低
域周波数成分と、前記ノイズ信号の高域周波数成分とを
混合することを特徴とする励起信号発生方法である。
A sixth aspect of the present invention, in order to solve the above-mentioned problems, in the excitation signal generating method according to the first aspect of the present invention, the mixed excitation signal generating step includes: a low-frequency component of the pulse train signal; A method of generating an excitation signal, which is characterized by mixing a high frequency component of a noise signal.

【0012】[0012]

【作用】第1の本発明における混合励起信号出力手段
は、混合比に基づいて、パルス列信号とノイズ信号とを
混合し、これによって混合励起信号を生成する。そのた
め、パルス列信号のみ、もしくはノイズ信号のみを励起
信号とする場合に比べて、よりきめ細かな励起が可能で
ある。
The mixed excitation signal output means in the first aspect of the present invention mixes the pulse train signal and the noise signal based on the mixing ratio, and thereby generates the mixed excitation signal. Therefore, more detailed excitation is possible as compared with the case where only the pulse train signal or only the noise signal is used as the excitation signal.

【0013】第2の本発明における混合比算出手段は、
所定のしきい値と低域エネルギー値とを比較することに
より混合比を算出する。そのため、容易に混合比を算出
することができる。
The mixing ratio calculating means in the second invention is
The mixture ratio is calculated by comparing a predetermined threshold value and the low band energy value. Therefore, the mixing ratio can be easily calculated.

【0014】第3の本発明における混合励起信号生成手
段は、パルス列信号の低域周波数成分と、ノイズ信号の
高域周波数成分とを混合する。そのため、スペクトル的
に、平坦な混合励起信号が得られる。
The mixed excitation signal generating means in the third aspect of the present invention mixes the low frequency component of the pulse train signal and the high frequency component of the noise signal. Therefore, a spectrally flat mixed excitation signal is obtained.

【0015】第4から第6までの本発明は、上記第1か
ら第3までの励起信号発生装置に対応する励起信号発生
方法であり、その作用は上記第1から第3までの本発明
と同様である。
The fourth to sixth inventions are excitation signal generating methods corresponding to the first to third excitation signal generators, and their operation is the same as that of the first to third inventions. It is the same.

【0016】[0016]

【実施例】以下、本発明の好適な実施例を図面に基づい
て説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described below with reference to the drawings.

【0017】図1には、本発明の好適な実施例である低
ビットレートボコーダにおける励起信号発生装置の構成
ブロック図が示されている。図1に示されているよう
に、音声入力信号は、まず低域エネルギー算出手段10
に供給される。この低域エネルギー算出手段10は、音
声入力信号の低域の周波数成分のエネルギーを計算す
る。例えば、この低域エネルギー算出手段10は、音声
入力信号の100〜800Hzの周波数帯域の信号成分
のみを救出し、係る信号成分のエネルギーを算出するこ
とにより、低域エネルギー値を算出する。なお、低域エ
ネルギー値は、低域の周波数成分信号の移動平均を算出
することなどにより求められるが、その他の平均値算出
方法を用いても好適である。
FIG. 1 is a block diagram showing the configuration of an excitation signal generator in a low bit rate vocoder which is a preferred embodiment of the present invention. As shown in FIG. 1, the voice input signal is first converted into the low frequency energy calculation means 10
Supplied to The low frequency energy calculation means 10 calculates the energy of the low frequency components of the voice input signal. For example, the low frequency energy calculating means 10 calculates the low frequency energy value by rescuing only the signal component of the frequency band of 100 to 800 Hz of the audio input signal and calculating the energy of the signal component. The low frequency energy value is obtained by calculating the moving average of the low frequency component signals, but other average value calculation methods are also suitable.

【0018】このようにして、低域エネルギー算出手段
10によって算出された低域エネルギー値は、混合比算
出手段12に供給される。混合比算出手段12は、前記
低域エネルギー値に基づいて、パルス列信号と、白色雑
音信号との混合比率を計算する。
The low band energy value calculated by the low band energy calculating means 10 in this manner is supplied to the mixture ratio calculating means 12. The mixing ratio calculating means 12 calculates the mixing ratio of the pulse train signal and the white noise signal based on the low band energy value.

【0019】本実施例において特徴的なことは、低ビッ
トレートボコーダにおいて有声音を合成する場合に、パ
ルス列信号のみを使うのではなく、パルス列信号と白色
雑音信号とを適宜混合させて励起信号を生成したことで
ある。このように、パルス列信号と白色雑音信号とを混
合することにより、生成される音声のレンジを広げるこ
とが可能であり、聴感上の改善を図ることができ、音質
の改善が可能である。
A feature of this embodiment is that when a voiced sound is synthesized in a low bit rate vocoder, not only a pulse train signal is used, but a pulse train signal and a white noise signal are appropriately mixed to generate an excitation signal. That is what was generated. In this way, by mixing the pulse train signal and the white noise signal, it is possible to widen the range of the generated voice, improve the audibility, and improve the sound quality.

【0020】励起信号の生成に用いられるパルス列信号
は、第1のFIRフィルタ14に供給されている。ま
た、励起信号の生成に用いられる白色雑音信号は、増幅
器16を介して、第2のFIRフィルタ18に供給され
ている。図1に示されているように、第1のFIRフィ
ルタ14と、第2のフィルタ18の出力信号は、加算器
20において加算され、最後に増幅器22において所定
の正規化が行われた後、外部に出力される。この第1の
FIRフィルタ14から増幅器22までの構成が、特許
請求の範囲における混合励起信号出力手段に相当する。
The pulse train signal used to generate the excitation signal is supplied to the first FIR filter 14. The white noise signal used for generating the excitation signal is supplied to the second FIR filter 18 via the amplifier 16. As shown in FIG. 1, the output signals of the first FIR filter 14 and the second filter 18 are added in an adder 20 and finally after a predetermined normalization in an amplifier 22, It is output to the outside. The configuration from the first FIR filter 14 to the amplifier 22 corresponds to the mixed excitation signal output means in the claims.

【0021】次に、図2に基づいて本実施例における励
起信号の生成の動作を説明する。なお、本実施例におい
て生成される励起信号を混合励起信号と呼ぶ。
Next, the operation of generating the excitation signal in this embodiment will be described with reference to FIG. The excitation signal generated in this embodiment is called a mixed excitation signal.

【0022】図2には、本実施例に係る低ビットレート
ボコーダにおける励起信号発生装置の動作を表すフロー
チャートが示されている。図2のフローチャートに示さ
れているように、まずステップST2−1において、入
力音声信号のDC成分を除去するために、100Hzの
ハイパスフィルタを通過させる。これによって、音声入
力信号からDC成分が除去される。
FIG. 2 is a flowchart showing the operation of the excitation signal generator in the low bit rate vocoder according to this embodiment. As shown in the flowchart of FIG. 2, first, in step ST2-1, a 100 Hz high-pass filter is passed in order to remove the DC component of the input audio signal. As a result, the DC component is removed from the audio input signal.

【0023】次にステップST2−2において、800
Hzのローパスフィルタを通過させる。これによって、
音声入力信号の低域成分のみが取り出される。このよう
にして得られた100〜800Hzの信号を、(x)と
呼ぶ。
Next, in step ST2-2, 800
Pass the low pass filter of Hz. by this,
Only the low frequency component of the audio input signal is extracted. The signal of 100 to 800 Hz thus obtained is called (x).

【0024】次に、この信号(x)の移動平均を算出
し、平均低域有声エネルギーLBVEを計算する。この
計算は、1次の再帰的フィルタによって計算が行われ
る。ここにおいて、この再帰的フィルタの分析フレーム
は、有声時におけるフレームエネルギーの入力信号であ
る。以上のLBVEの計算はステップST2−3におい
て行われる。
Next, the moving average of this signal (x) is calculated, and the average low frequency voiced energy LBVE is calculated. This calculation is performed by a first-order recursive filter. Here, the analysis frame of this recursive filter is the input signal of the frame energy in the voiced state. The above LBVE calculation is performed in step ST2-3.

【0025】次に、得られた低域エネルギー値の正規化
を行う(ステップST2−4)。この正規化された低域
エネルギー値Eは、次の式により求められる。
Next, the obtained low band energy value is normalized (step ST2-4). The normalized low frequency energy value E is obtained by the following equation.

【0026】[0026]

【数1】 E=(Σ|xi|)/(LBVE) …(1) ここで、Eは上述したように正規化された低域エネルギ
ー値であり、xiは、上に述べた(x)に相当するもの
である。
## EQU1 ## E = (Σ | xi |) / (LBVE) (1) Here, E is the low frequency energy value normalized as described above, and xi is (x) described above. Is equivalent to.

【0027】以上述べた、ステップST2−1〜ST2
−4までの動作が、低域エネルギー値算出手段10にお
いて行われる。低域エネルギー算出手段10からは、正
規化された低域エネルギー値Eが出力され、この低域エ
ネルギー値Eが混合比算出手段12に供給される。
Steps ST2-1 to ST2 described above
The operation up to -4 is performed in the low band energy value calculation means 10. The normalized low range energy value E is output from the low range energy calculation means 10, and this low range energy value E is supplied to the mixture ratio calculation means 12.

【0028】次に混合比算出手段12においては、低域
エネルギー値Eが所定のしきい値と比較される(ST2
−5)。
Next, in the mixing ratio calculating means 12, the low frequency energy value E is compared with a predetermined threshold value (ST2).
-5).

【0029】そして、この比較の結果、低域エネルギー
値がしきい値以上であるか、しきい値以下であるかがS
T2−6において検査される。この比較の結果、低域エ
ネルギー値Eがしきい値以上であった場合には、ステッ
プST2−7に移行し、パルス列信号と、白色雑音信号
とが80%:20%で混合されることが決定される。一
方、低域エネルギー値Eがしきい値以下である場合に
は、パルス列信号と白色雑音信号とを50%:50%で
混合することが決定される(ST2−8)。
Then, as a result of this comparison, it is determined whether the low-frequency energy value is above the threshold value or below the threshold value.
Checked at T2-6. As a result of this comparison, when the low frequency energy value E is equal to or more than the threshold value, the process proceeds to step ST2-7, and the pulse train signal and the white noise signal are mixed at 80%: 20%. It is determined. On the other hand, when the low band energy value E is equal to or less than the threshold value, it is determined to mix the pulse train signal and the white noise signal with 50%: 50% (ST2-8).

【0030】このように、本実施例においては、音声フ
レームが有声であるか無声であるかを問わずに、単に音
声入力信号の低域成分のエネルギーによって混合比が決
定されている。これは、一般的に有声音は無声音に比べ
て低域エネルギーが30dB以上大きいという経験的事
実に基づくものである。すなわち、無声音の場合の低域
エネルギー値Eは、有声音の低域エネルギー値Eに比べ
て十分に小さい値となることが知られているため、その
有声音と無声音とを区別するための適当なしきい値を定
めることにより、単純に低域エネルギー値を算出するの
みで混合比を決定している。
As described above, in this embodiment, the mixing ratio is determined simply by the energy of the low frequency component of the voice input signal regardless of whether the voice frame is voiced or unvoiced. This is based on the empirical fact that voiced sound generally has a low-frequency energy of 30 dB or more higher than unvoiced sound. That is, it is known that the low-frequency energy value E in the case of unvoiced sound is a value sufficiently smaller than the low-frequency energy value E of voiced sound, and therefore it is suitable for distinguishing the voiced sound from the unvoiced sound. By setting such a threshold value, the mixing ratio is determined by simply calculating the low band energy value.

【0031】このように、ステップST2−7、もしく
はステップST2−8において混合比が決定されると、
ステップST2−9において係る混合比についての決定
が「mix ratio flag」に格納される。こ
の「mix ratio flag」に格納されている
混合比は、後述するように第1のFIRフィルタ14
や、増幅器16にそれぞれ供給される。本実施例におい
ては、混合比は80%か50%のいずれかであるため、
「mix ratio flag」としては、1ビット
の構成で十分である。なお、本実施例においては、混合
比を2段階に切り換えたが、これは3段階以上とするこ
ともでき、段階を多くすればするほどきめ細かな制御が
出来ることはいうまでもない。
In this way, when the mixing ratio is determined in step ST2-7 or step ST2-8,
The determination about the mixing ratio in step ST2-9 is stored in “mix ratio flag”. The mixing ratio stored in this “mix ratio flag” is determined by the first FIR filter 14 as described later.
And the amplifier 16 respectively. In this embodiment, since the mixing ratio is either 80% or 50%,
As the “mix ratio flag”, a 1-bit configuration is sufficient. In the present embodiment, the mixing ratio was switched to two stages, but it is also possible to set it to three stages or more, and it goes without saying that the more stages there are, the finer the control can be performed.

【0032】上記ステップST2−5からステップST
2−9までの動作は、混合比算出手段12において行わ
れる。そして「mix ratio flag」も混合
比算出手段12内部に設けられている。この「mix
ratio flag」のデータは、図1に示されてい
るように第1のFIRフィルタ14や、増幅器16に供
給されている。
Steps ST2-5 to ST
The operations up to 2-9 are performed by the mixture ratio calculation means 12. The “mix ratio flag” is also provided inside the mixing ratio calculating means 12. This "mix
The "ratio flag" data is supplied to the first FIR filter 14 and the amplifier 16 as shown in FIG.

【0033】第1のFIRフィルタ14は、パルス列信
号を入力する1次のFIRフィルタであり、その伝達関
数は1+az−1である。この第1のFIRフィルタ1
4は、混合比算出手段12から出力される「mix r
atio flag」の内容に基づき、この係数aを切
り換える。また、増幅器16は、上述したように白色雑
音信号を入力する増幅器であり、その増幅率はGで表さ
れる。この増幅器16の増幅率Gは、混合比算出手段1
2から出力される「mix ratio flag」の
値に基づき切り換えられる。
The first FIR filter 14 is a first-order FIR filter for inputting a pulse train signal, and its transfer function is 1 + az -1 . This first FIR filter 1
4 is “mix r output from the mixture ratio calculation means 12
The coefficient a is switched based on the content of "audio flag". The amplifier 16 is an amplifier that inputs the white noise signal as described above, and its amplification factor is represented by G. The amplification factor G of the amplifier 16 is the mixture ratio calculation means 1
It is switched based on the value of the "mix ratio flag" output from 2.

【0034】本実施例においては、パルス列信号は、こ
の第1のFIRフィルタ14により低周波信号のみが取
り出され、一方、白色雑音信号は、第2のFIRフィル
タ18によって高域周波数成分のみが取り出される。そ
して、パルス列信号の低域周波数信号と、白色雑音信号
の高域周波数成分とが加算器20により加算され、増幅
器22により正規化された後出力されるのである。な
お、第2のFIRフィルタ18の伝達関数は1−bz
−1で表される。
In the present embodiment, the pulse train signal is extracted by the first FIR filter 14 as a low frequency signal only, while the white noise signal is extracted by the second FIR filter 18 as a high frequency component only. Be done. Then, the low-frequency signal of the pulse train signal and the high-frequency component of the white noise signal are added by the adder 20, normalized by the amplifier 22, and then output. The transfer function of the second FIR filter 18 is 1-bz
It is represented by -1 .

【0035】次に、第1のFIRフィルタ14の係数a
や増幅器16の増幅率G、第2のFIRフィルタ18の
係数bがどのように設定されるか説明する。
Next, the coefficient a of the first FIR filter 14
How the amplification factor G of the amplifier 16 and the coefficient b of the second FIR filter 18 are set will be described.

【0036】図2に示されている構成ブロック図から、
本実施例における混合励起信号e(n)が、以下の式に
より求められることが理解されよう。
From the configuration block diagram shown in FIG.
It will be appreciated that the mixed excitation signal e (n) in this example is given by:

【0037】[0037]

【数2】 e(n)=G(Hw(n)*w(n))+(Hp(n)*P(n)) …(2) ここで、本実施例における混合励起信号は、e(n)で
表され、P(n)は、単一の周期パルス列信号を表し、
w(n)は、白色雑音信号をそれぞれ表す。また、Hp
(n)は、第1のFIRフィルタ14によってフィルタ
リングされた低周波成分を表し、Hw(n)は、第2の
FIRフィルタ18によりフィルタリングされた高域周
波数成分を表す。また、Gは、上述したように増幅器1
6の増幅率である。
## EQU00002 ## e (n) = G (Hw (n) * w (n)) + (Hp (n) * P (n)) (2) Here, the mixed excitation signal in the present embodiment is e Is represented by (n), P (n) represents a single periodic pulse train signal,
w (n) represents a white noise signal, respectively. Also, Hp
(N) represents the low frequency component filtered by the first FIR filter 14, and Hw (n) represents the high frequency component filtered by the second FIR filter 18. Further, G is the amplifier 1 as described above.
The amplification factor is 6.

【0038】そして、パルス列信号と、白色雑音信号と
が、白色でかつ独立しており、統一されたパワースペク
トルを有している場合には、混合励起信号のパワースペ
クトルは、以下の式により算出される。
When the pulse train signal and the white noise signal are white and independent and have a unified power spectrum, the power spectrum of the mixed excitation signal is calculated by the following formula. To be done.

【0039】[0039]

【数3】 Se(w)=G|Hw(w)|+|Hp(w)| =G(Hb−2bcosw)+1+a+2acosw …(3 ) この(3)式を、スペクトル的に平坦な励起信号を
得るために、周波数に依存する項の定数を0にするため
には、以下の式を各係数が満たせばよい。
Se (w) = G 2 | Hw (w) | 2 + | Hp (w) | 2 = G 2 (Hb 2 −2bcosw) + 1 + a 2 + 2acosw (3) This equation (3) is converted into a spectrum. In order to obtain a substantially flat excitation signal, the constant of the frequency-dependent term may be set to 0, and each coefficient may satisfy the following equation.

【0040】[0040]

【数4】 0=G(−2bcosw)+2acosw a=bG …(4) 本実施例においては、この(4)式により求められた係
数の関係に基づいて、以下のように各係数を切り換えて
上述した80%と50%の混合比率を実現している。
[Equation 4] 0 = G 2 (−2bcosw) + 2acoswa a = bG 2 (4) In the present embodiment, each coefficient is calculated as follows based on the relationship of the coefficients obtained by the equation (4). By switching, the above-mentioned mixing ratio of 80% and 50% is realized.

【0041】まず、Gは、1以下の2種類の値を、混合
比算出***この部分は復旧できませんでした。***
ことを意味する。また、本実施例においては第2のFI
Rフィルタ18における係数bは、1に固定している。
この結果、上述した(4)式に基づき、第1のFIRフ
ィルタ14の係数aはA=Gとして求められる。すな
わち、本実施例においては、混合比率が80%の場合に
は、a=0.0625となり、混合比率が50%の場合
にはa=1.0となる。
First of all, G could not recover two kinds of values less than or equal to 1, mixing ratio calculation *** This part could not be restored. ***
Means that. Further, in the present embodiment, the second FI
The coefficient b in the R filter 18 is fixed to 1.
As a result, the coefficient a of the first FIR filter 14 is calculated as A = G 2 based on the above-mentioned equation (4). That is, in this embodiment, a = 0.0625 when the mixing ratio is 80%, and a = 1.0 when the mixing ratio is 50%.

【0042】本実施例において特徴的なことは低域エネ
ルギー値Eに基づき、パルス列信号と白色雑音信号とを
所定の比率で混合したことである。このような混合によ
り励起信号を生成したので、有声音の音質を向上させる
ことが可能である。また、パルス列信号をローパスフィ
ルタ(第1のFIRフィルタ14)を通過させ、低域周
波数成分のみを取り出し、一方白色雑音信号は、ハイパ
スフィルタ(第2のFIRフィルタ18)を追加させて
高域周波数成分のみを取り出した。これら低域周波数成
分と高域周波数成分とを加算することにより、本実施例
においてはスペクトル的に平坦な励起信号を生成するこ
とができる。
A feature of this embodiment is that the pulse train signal and the white noise signal are mixed at a predetermined ratio based on the low-range energy value E. Since the excitation signal is generated by such mixing, it is possible to improve the sound quality of voiced sound. Further, the pulse train signal is passed through a low-pass filter (first FIR filter 14) to extract only low-frequency components, while a white noise signal is added with a high-pass filter (second FIR filter 18) to obtain high-frequency signals. Only the ingredients were taken out. By adding these low frequency components and high frequency components, a spectrally flat excitation signal can be generated in this embodiment.

【0043】このようにして、パルス列信号と白色雑音
信号とを混合することにより得られた励起信号の実効値
は、図1に示されていない音声入力信号の分析装置で分
析された音声入力信号の実効値と比較される。この比較
の結果、混合励起信号の正規化が増幅器22において行
われる。すなわち、増幅器22の増幅率γを所定の値に
設定することにより、この正規化が行われる。このよう
にして最終的に得られた混合励起信号が合成フィルタへ
出力される。なお、本実施例においては有声音の場合に
パルス列信号と白色雑音信号とを混合することを示した
が無声音の場合には、従来と同様に白色雑音信号のみを
利用して励起信号が生成される。
In this way, the effective value of the excitation signal obtained by mixing the pulse train signal and the white noise signal is the voice input signal analyzed by the voice input signal analyzer not shown in FIG. Is compared to the effective value of. As a result of this comparison, normalization of the mixed excitation signal is performed in the amplifier 22. That is, this normalization is performed by setting the amplification factor γ of the amplifier 22 to a predetermined value. The mixed excitation signal finally obtained in this way is output to the synthesis filter. In the present embodiment, it was shown that the pulse train signal and the white noise signal are mixed in the case of voiced sound, but in the case of unvoiced sound, the excitation signal is generated using only the white noise signal as in the conventional case. It

【0044】[0044]

【発明の効果】以上説明したように第1の本発明によれ
ば、有声音を、混合励起信号を用いて合成したため、合
成音声のレンジの拡大を図ることができ、聴間上の改善
が図られたボコーダが得られる。この結果、著しく音質
の改善がされた低ビットレートのボコーダが実現可能で
ある。
As described above, according to the first aspect of the present invention, since the voiced sound is synthesized by using the mixed excitation signal, it is possible to expand the range of the synthesized voice and improve the listening interval. A vocoder designed is obtained. As a result, a low bit rate vocoder with significantly improved sound quality can be realized.

【0045】第2の本発明においては、混合比率の算出
に低域エンルギー値と所定のしきい値との比較によって
行われる。その結果、混合比の算出が容易になり、簡易
な構成で音質の改善が可能な低ビットレートボコーダが
得られる。
In the second aspect of the present invention, the mixing ratio is calculated by comparing the low range energy value with a predetermined threshold value. As a result, the calculation of the mixing ratio becomes easy, and a low bit rate vocoder capable of improving sound quality with a simple configuration can be obtained.

【0046】第3の本発明によれば、パルス列信号の低
域周波数成分と、ノイズ信号の高域周波数成分とを混合
するため、スペクトル的に平坦な混合励起信号が得られ
る低ビットレートボコーダが得られる。
According to the third aspect of the present invention, since the low frequency component of the pulse train signal and the high frequency component of the noise signal are mixed, a low bit rate vocoder capable of obtaining a spectrally flat mixed excitation signal is provided. can get.

【0047】第4から第6までの励起信号発生方法は、
上記第1から第3までの本発明に係る励起信号発生装置
により実現される方法であり、上記第1から第3までの
本発明と同様の効果を奏する。
The fourth to sixth excitation signal generation methods are as follows:
The method is realized by the excitation signal generator according to the first to third aspects of the present invention, and has the same effects as those of the first to third aspects of the present invention.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の好適な実施例である低ビットレート
ボコーダの励起信号発生装置を表す構成ブロック図であ
る。
FIG. 1 is a configuration block diagram showing an excitation signal generator for a low bit rate vocoder which is a preferred embodiment of the present invention.

【図2】 図1に示されている励起信号発生装置の動作
を説明するフローチャートである。
FIG. 2 is a flowchart explaining the operation of the excitation signal generator shown in FIG.

【図3】 従来のホルマント推定にかかる音声合成モデ
ルの説明図である。
FIG. 3 is an explanatory diagram of a speech synthesis model according to conventional formant estimation.

【符号の説明】[Explanation of symbols]

10 低域エネルギー算出手段、12 混合比算出手
段、14 第1のFIRフィルタ、16 増幅器、18
第2のFIRフィルタ、20 加算器、22増幅器。
10 low band energy calculating means, 12 mixing ratio calculating means, 14 first FIR filter, 16 amplifier, 18
Second FIR filter, 20 adder, 22 amplifier.

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】音声入力信号のホルマントを推定し、この
ホルマントに基づいて原音声入力信号を合成する低ビッ
トレートボコーダに用いられる励起信号発生装置におい
て、 前記音声入力信号の低域周波数成分のエネルギーである
低域エネルギー値を求める低域エネルギー算出手段と、 前記低域エネルギー算出手段において求められた低域エ
ネルギー値に基づいて、パルス列信号とノイズ信号との
混合比を求める混合比算出手段と、 前記混合比決定手段において求められた混合比に基づい
て、パルス列信号とノイズ信号とを混合し、混合励起信
号を生成する混合励起信号生成手段と、 を含むことを特徴とする励起信号発生装置。
1. An excitation signal generator used in a low bit rate vocoder for estimating a formant of an audio input signal and synthesizing an original audio input signal based on the formant, wherein an energy of a low frequency component of the audio input signal. A low range energy calculating means for obtaining a low range energy value that is, based on the low range energy value obtained by the low range energy calculating means, a mixture ratio calculating means for obtaining a mixture ratio of a pulse train signal and a noise signal, An excitation signal generation device comprising: a mixture excitation signal generation unit that mixes a pulse train signal and a noise signal based on the mixture ratio obtained by the mixture ratio determination unit to generate a mixed excitation signal.
【請求項2】請求項1記載の励起信号発生装置におい
て、前記混合比算出手段は、 前記低域エネルギー値と、所定のしきい値とを比較し、
この比較の結果に基づき、前記混合比を算出することを
特徴とする励起信号発生装置。
2. The excitation signal generator according to claim 1, wherein the mixing ratio calculation means compares the low frequency energy value with a predetermined threshold value,
An excitation signal generator, wherein the mixing ratio is calculated based on the result of this comparison.
【請求項3】請求項1記載の励起信号発生装置におい
て、前記混合励起信号生成手段は、 前記パルス列信号の低域周波数成分と、前記ノイズ信号
の高域周波数成分とを混合することを特徴とする励起信
号発生装置。
3. The excitation signal generator according to claim 1, wherein the mixed excitation signal generation means mixes a low frequency component of the pulse train signal and a high frequency component of the noise signal. Excitation signal generator.
【請求項4】音声入力信号のホルマントを推定し、この
ホルマントに基づいて原音声入力信号を合成する低ビッ
トレートボコーダに用いられる励起信号発生方法におい
て、 前記音声入力信号の低域周波数成分のエネルギーである
低域エネルギー値を求める低域エネルギー算出ステップ
と、 前記低域エネルギー算出ステップにおいて求められた低
域エネルギー値に基づいて、パルス列信号とノイズ信号
との混合比を求める混合比算出ステップと、 前記混合比決定ステップにおいて求められた混合比に基
づいて、パルス列信号とノイズ信号とを混合し、混合励
起信号を生成する混合励起信号生成ステップと、 を含むことを特徴とする励起信号発生方法。
4. An excitation signal generating method used in a low bit rate vocoder for estimating a formant of a voice input signal and synthesizing an original voice input signal based on the formant, wherein the energy of a low frequency component of the voice input signal. A low range energy calculating step for obtaining a low range energy value that is, based on the low range energy value obtained in the low range energy calculating step, a mixture ratio calculating step for obtaining a mixture ratio of a pulse train signal and a noise signal, A mixed excitation signal generation step of mixing a pulse train signal and a noise signal to generate a mixed excitation signal based on the mixing ratio obtained in the mixing ratio determination step, the excitation signal generating method.
【請求項5】請求項4記載の励起信号発生方法におい
て、前記混合比算出ステップは、 前記低域エネルギー値と、所定のしきい値とを比較し、
この比較の結果に基づき、前記混合比を算出することを
特徴とする励起信号発生方法。
5. The excitation signal generating method according to claim 4, wherein the mixing ratio calculating step compares the low band energy value with a predetermined threshold value,
An excitation signal generating method, characterized in that the mixing ratio is calculated based on the result of this comparison.
【請求項6】請求項4記載の励起信号発生方法におい
て、前記混合励起信号生成ステップは、 前記パルス列信号の低域周波数成分と、前記ノイズ信号
の高域周波数成分とを混合することを特徴とする励起信
号発生方法。
6. The excitation signal generating method according to claim 4, wherein the mixed excitation signal generating step mixes a low frequency component of the pulse train signal and a high frequency component of the noise signal. Excitation signal generation method.
JP7160649A 1995-06-27 1995-06-27 Excitation signal generating device and excitation signal generating method in low bit rate vocoder Pending JPH0916198A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7160649A JPH0916198A (en) 1995-06-27 1995-06-27 Excitation signal generating device and excitation signal generating method in low bit rate vocoder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7160649A JPH0916198A (en) 1995-06-27 1995-06-27 Excitation signal generating device and excitation signal generating method in low bit rate vocoder

Publications (1)

Publication Number Publication Date
JPH0916198A true JPH0916198A (en) 1997-01-17

Family

ID=15719506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7160649A Pending JPH0916198A (en) 1995-06-27 1995-06-27 Excitation signal generating device and excitation signal generating method in low bit rate vocoder

Country Status (1)

Country Link
JP (1) JPH0916198A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012058343A (en) * 2010-09-06 2012-03-22 Kddi Corp Voice synthesizing apparatus, voice synthesizing method and voice synthesizing program
JP2012514763A (en) * 2009-02-04 2012-06-28 モトローラ モビリティ インコーポレイテッド Bandwidth expansion method and apparatus for modified discrete cosine transform speech coder

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012514763A (en) * 2009-02-04 2012-06-28 モトローラ モビリティ インコーポレイテッド Bandwidth expansion method and apparatus for modified discrete cosine transform speech coder
JP2014016622A (en) * 2009-02-04 2014-01-30 Motorola Mobility Llc Bandwidth extension method and apparatus for modified discrete cosine transform audio coder
JP2012058343A (en) * 2010-09-06 2012-03-22 Kddi Corp Voice synthesizing apparatus, voice synthesizing method and voice synthesizing program

Similar Documents

Publication Publication Date Title
US7680653B2 (en) Background noise reduction in sinusoidal based speech coding systems
US8239208B2 (en) Spectral enhancing method and device
US8065141B2 (en) Apparatus and method for processing signal, recording medium, and program
WO2013031953A1 (en) Mixing device, mixing signal processing device, mixing program and mixing method
JPH07248794A (en) Method for processing voice signal
JP2007178675A (en) Effect adding method of audio reproduction, and its apparatus
JPH0990992A (en) Broad-band speech signal restoration method
US7024008B2 (en) Acoustic quality enhancement via feedback and equalization for mobile multimedia systems
JP2005010621A (en) Voice band expanding device and band expanding method
JPH0916198A (en) Excitation signal generating device and excitation signal generating method in low bit rate vocoder
JP2841797B2 (en) Voice analysis and synthesis equipment
JP2008072600A (en) Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method
JP4455701B2 (en) Audio signal processing apparatus and audio signal processing method
JPH08305396A (en) Device and method for expanding voice band
JP3158434B2 (en) Digital audio decoder with post-filter having reduced spectral distortion
JP2002175099A (en) Method and device for noise suppression
JP4433668B2 (en) Bandwidth expansion apparatus and method
JP4900062B2 (en) Audio signal processing apparatus, audio reproduction apparatus, and audio signal processing method
US5204934A (en) Sound synthesis device using modulated noise signal
JPH07146700A (en) Pitch emphasizing method and device and hearing acuity compensating device
JP5745453B2 (en) Voice clarity conversion device, voice clarity conversion method and program thereof
JP3929365B2 (en) Audio signal processing method, apparatus, and audio signal processing program
JP3230790B2 (en) Wideband audio signal restoration method
US20230057082A1 (en) Electronic device, method and computer program
JP2000003200A (en) Voice signal processor and voice signal processing method