JPH09244698A - Voice coding/decoding system and device - Google Patents

Voice coding/decoding system and device

Info

Publication number
JPH09244698A
JPH09244698A JP8080618A JP8061896A JPH09244698A JP H09244698 A JPH09244698 A JP H09244698A JP 8080618 A JP8080618 A JP 8080618A JP 8061896 A JP8061896 A JP 8061896A JP H09244698 A JPH09244698 A JP H09244698A
Authority
JP
Japan
Prior art keywords
filter
coding
decoding
equation
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8080618A
Other languages
Japanese (ja)
Other versions
JP3515853B2 (en
Inventor
Sei Imai
聖 今井
Takao Kobayashi
隆夫 小林
Keiichi Tokuda
恵一 徳田
Kazuto Koishida
和人 小石田
Sukeyuki Furukawa
祐行 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyo Communication Equipment Co Ltd
Original Assignee
Toyo Communication Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyo Communication Equipment Co Ltd filed Critical Toyo Communication Equipment Co Ltd
Priority to JP08061896A priority Critical patent/JP3515853B2/en
Publication of JPH09244698A publication Critical patent/JPH09244698A/en
Application granted granted Critical
Publication of JP3515853B2 publication Critical patent/JP3515853B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To obtain a highly subjective voice quality by using a meridional generalized cepstrum as the expression parameter of a voice spectrum. SOLUTION: A meridional generalized cepstrum in which a power parameter γis set to other than γ0 or γ=-1 is made to be a parameter. The synthetic filter 1 constituted based on drivings of filter coefficients calculated from the parameter obtained by the analysis of a meridional generalized cepstrum analyzing method and an auditory sensation weighting filter 2 are applied to a CELP. In this case, the auditory sensation weighting filter 2 is realized by using a B(Z). Thus, spectral poles and zeros are not only expressed in a form in which the auditory characteristic of the human race is concidered and a voice synthesis is achieved with the synthetic filter having simple constitution but also the voice synthesis of higher quality is made possible because the auditory sensation weighting filter 2 and the filter coefficients of the post-filter are selected in such a way by using the meridional generalized cepstrum analysis.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は音声符号/復号化シ
ステムに関し、特にメル一般化ケプストラムを用いた音
声符号/復号化方式及び装置に関する。尚、この明細書
において「音声符号/復号化」とは、音声符号化、音声
復号化、および音声符号復号化を含む概念である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech coding / decoding system, and more particularly to a speech coding / decoding system and apparatus using a mel generalized cepstrum. In this specification, “voice coding / decoding” is a concept including voice coding, voice decoding, and voice code decoding.

【0002】[0002]

【従来の技術】従来、音声符号化方式においては、励振
源モデル(音源モデル)、音声モデル(声道モデル)の
2つの主な要素からなる音声生成モデルを採用し、音声
を符号化している。このような音声生成モデルを使用
し、主観的な音声品質を向上させる場合には、符号化、
復号化によって発生する量子化雑音のスペクトル形状と
音声信号のスペクトル形状とをコントロ−ルして主観性
能を向上させる、「ノイズシェ−ピング(又は聴覚重み
付け)」や「ポストフィルタリング」等の処理を行うの
が一般的であり、これらの処理は聴覚のマスキング特性
を考慮して主観性能を向上させるものである。「ノイズ
シェ−ピング」処理は、音声スペクトルのエネルギ−が
小さな部分では量子化雑音のエネルギ−を小さくし、ま
た音声スペクトルのエネルギ−が大きな部分では大きく
なるように量子化雑音のエネルギ−を周波数軸上でコン
トロ−ルする方法である。
2. Description of the Related Art Conventionally, in a speech coding method, a speech generation model composed of two main elements, an excitation source model (sound source model) and a speech model (vocal tract model), is used to encode speech. . When using such a speech generation model to improve subjective speech quality, encoding,
Performs processes such as "noise shaping (or perceptual weighting)" and "post-filtering" to improve the subjective performance by controlling the spectral shape of the quantization noise generated by decoding and the spectral shape of the speech signal. In general, these processes improve the subjective performance in consideration of auditory masking characteristics. In the "noise shaping" process, the energy of the quantization noise is reduced in a portion where the energy of the speech spectrum is small, and the energy of the quantization noise is increased in a frequency axis so that the energy of the speech spectrum is increased in a portion where the energy is large. This is the method of controlling above.

【0003】また「ポストフィルタリング」処理は、復
号化された音声信号に対する操作であり、相対的にSN
比が小さくなる音声スペクトルの谷の部分のエネルギ−
を小さく、また相対的にSN比が大きい音声スペクトル
の山の部分を強調するようにフィルタリングを行う方法
であり、上記いずれの処理も聴覚的な雑音感を低減させ
る上で効果を有する。上述した従来の音声符号/復号化
方式では、線形予測法に基づいた全極形の音声スペクト
ルモデルが多く用いられており、前述した「ノイズシェ
−ピング」、「ポストフィルタリング」等の処理も線形
予測法によって得られた全極形のスペクトルに基づいて
行われることが多い。図15に入力音声から線形予測分
析法によってスペクトル包絡に対応する線形予測係数を
抽出し、これを符号帳に蓄えた励振ベクトルで駆動する
ことで音声を合成する符号化方式を用いたCELP符号
化方式の構成を示す。同図において、1は合成フィル
タ、2は聴覚重み付けフィルタ、3は適応符号帳、4は
雑音符号帳、5は誤差最小化であり、前記合成フィルタ
1は線形予測係数a(m)を用いて、
The "post-filtering" process is an operation on a decoded audio signal, which is relatively SN.
Energy in the valley portion of the speech spectrum where the ratio becomes small
Is a method of performing filtering so as to emphasize a mountain portion of a speech spectrum having a relatively small SN ratio and a relatively large SN ratio, and any of the above processes is effective in reducing an auditory noise feeling. In the above-described conventional speech coding / decoding method, all-pole type speech spectrum model based on the linear prediction method is often used, and the above-mentioned "noise shaping", "post-filtering" processing and the like are also linear prediction. It is often performed based on the all-pole spectrum obtained by the method. FIG. 15 illustrates CELP coding using a coding method in which a linear prediction coefficient corresponding to a spectral envelope is extracted from the input speech by a linear prediction analysis method and is driven by an excitation vector stored in a codebook to synthesize speech. The configuration of the method is shown. In the figure, 1 is a synthesis filter, 2 is a perceptual weighting filter, 3 is an adaptive codebook, 4 is a noise codebook, 5 is error minimization, and the synthesis filter 1 uses a linear prediction coefficient a (m). ,

【0004】[0004]

【数1】 で定義され、また聴覚重み付けフィルタ2は、[Equation 1] , And the perceptual weighting filter 2 is

【0005】[0005]

【数2】 で定義される。[Equation 2] Is defined by

【0006】前記適応符号帳3は、音声の周期性を表現
するために用いられ、過去の励振源が蓄えられている。
また、雑音符号帳4は、適応符号帳では表現しきれない
音声の変動部分の表現に用いられ、各符号帳3及び4の
ベクトルは、合成による分析(Analysis by Synthesis
(A-b-S)) 法による閉ル−プ探索により決定され、適応
符号帳3、雑音符号帳4の順に探索が行われた後、ゲイ
ンをベクトル量子化で決定する。すなわち、適応符号帳
3及び雑音符号帳4よりのベクトルを合成フィルタ1に
入力すると共に、該合成フィルタ1出力と入力音声との
差を求め、さらに誤差のデ−タを聴覚重み付けフィルタ
2に入力し、該聴覚重み付けフィルタ2の出力が最小と
なるように誤差最小化5により適応符号帳3、雑音符号
帳4の出力を更新するものである。一方、復号器は図1
6に示すように、合成フィルタ1、適応符号帳3、雑音
符号帳4及びポストフィルタ6とからなり、伝送されて
くる情報から、励振源で合成フィルタ1を駆動し、さら
にポストフィルタ6を通すことで聴覚的な雑音の低減を
図る。ここで、ポストフィルタ6は一般に、
The adaptive codebook 3 is used to express the periodicity of speech and stores past excitation sources.
Further, the noise codebook 4 is used for expressing a variable portion of speech that cannot be expressed by the adaptive codebook, and the vectors of the codebooks 3 and 4 are analyzed by synthesis (Analysis by Synthesis).
(AbS)) It is determined by the closed loop search by the method, the adaptive codebook 3 and the noise codebook 4 are searched in this order, and then the gain is determined by vector quantization. That is, the vectors from the adaptive codebook 3 and the noise codebook 4 are input to the synthesis filter 1, the difference between the output of the synthesis filter 1 and the input speech is obtained, and the error data is input to the auditory weighting filter 2. Then, the outputs of the adaptive codebook 3 and the noise codebook 4 are updated by error minimization 5 so that the output of the perceptual weighting filter 2 is minimized. On the other hand, the decoder is
6, a synthesis filter 1, an adaptive codebook 3, a noise codebook 4 and a post filter 6 are provided. Based on the transmitted information, the synthesis source 1 is driven by the excitation source, and the post filter 6 is passed. This will reduce auditory noise. Here, the post filter 6 is generally

【0007】[0007]

【数3】 の如き伝達関数をもち、A(z/δ1)/A(z/δ
2)でホルマントの強調を行い、(1−μz-1)でスペ
クトルの傾きを補正している。
(Equation 3) With a transfer function such as A (z / δ1) / A (z / δ
The formant is emphasized in 2), and the slope of the spectrum is corrected in (1-μz -1 ).

【0008】[0008]

【発明が解決しようとする課題】このような線形予測に
よるCELP符号化方式は、(1)少ない演算量でスペ
クトルの表現パラメ−タが求まる、(2)LSP(Line
Spectrum Pair)表現等を用いることにより効果的にパ
ラメ−タを量子化することができる、(3)LSP(Li
ne Spectrum Pair) 表現等を用いることにより合成フィ
ルタの安定性を保証することができる、等の利点があ
る。しかし、全極モデルで音声スペクトルを表現した場
合には鼻音等の零点を含んだ音声スペクトルを正確に表
現することは極めて困難であり、高品質な合成音声を得
ることができないという欠点があった。そこで主観性能
を向上させるための操作をより効果的に行うためにはス
ペクトルの極だけでなく、零点を表現することのできる
スペクトルモデルを用いることが必要と考えられ、この
問題を解決するために、本願発明者らは、信学技報SP94
-38(1994-09)に開示したように、スペクトルの極と零と
を同等の精度で表現することができるメルケプストラム
をパラメ−タとするCELP符号化方式を提案してい
る。また、メルケプストラムを用いた場合、低周波数域
で細かい分解能、高周波数域で粗い分解能をもつ人間の
周波数軸の聴覚特性を考慮できるという利点を有する。
The CELP coding method based on such linear prediction is (1) the expression parameter of the spectrum can be obtained with a small amount of calculation, and (2) the LSP (Line
Parameters can be effectively quantized by using the Spectrum Pair) expression, etc. (3) LSP (Li
There is an advantage that the stability of the synthesis filter can be guaranteed by using the ne Spectrum Pair) expression and the like. However, when the speech spectrum is represented by the all-pole model, it is extremely difficult to accurately represent the speech spectrum including zeros such as nasal sounds, and there is a drawback that high quality synthetic speech cannot be obtained. . Therefore, it is considered necessary to use a spectral model that can represent not only the poles of the spectrum but also the zeros in order to perform the operation for improving the subjective performance more effectively. , The present inventors
As disclosed in -38 (1994-09), there is proposed a CELP coding method using a mel-cepstrum as a parameter, which can represent the poles and zeros of the spectrum with equal accuracy. In addition, when the mel cepstrum is used, there is an advantage that the auditory characteristics of the human frequency axis having fine resolution in the low frequency range and coarse resolution in the high frequency range can be considered.

【0009】しかしながら、上述したようなスペクトル
の零点を表現することのできるスペクトルモデルを用い
た音声合成では、スペクトルの極と零とを同等の精度で
表現することはできるものの、より精密に人間の聴覚特
性を反映した合成音声を得ることができない。つまり、
鼻音などの音韻性は、スペクトルの零点によって特徴づ
けられるため、零点を表現する必要はあるが、人間の聴
覚特性は、零点(スペクトルの谷)よりも極(スペクト
ルの山)に敏感であるため、極の表現精度を零の表現精
度より高めにすることにより、より人間の聴覚特性にあ
ったスペクトル表現が可能となる。しかしながら、メル
ケプストラムを用いてスペクトルを表現した場合、周波
数軸に人間の聴覚特性を導入できるものの、スペクトル
の極と零との表現精度に重み付を行うことができないた
め音質の向上に限界があるという問題点があった。
However, in the speech synthesis using the spectrum model capable of expressing the zero point of the spectrum as described above, although the poles and zeros of the spectrum can be expressed with the same accuracy, the human being can be more accurately expressed. It is not possible to obtain synthetic speech that reflects the auditory characteristics. That is,
Since phonological characteristics such as nasal sounds are characterized by the zeros of the spectrum, it is necessary to represent the zeros, but human auditory characteristics are more sensitive to the poles (peaks of the spectrum) than to the zeros (valleys of the spectrum). , By increasing the representation accuracy of the poles higher than the representation accuracy of zero, it is possible to achieve spectral representation that is more suitable for human auditory characteristics. However, when a spectrum is expressed using a mel cepstrum, human auditory characteristics can be introduced on the frequency axis, but there is a limit to the improvement of sound quality because weighting cannot be applied to the expression precision of the poles and zeros of the spectrum. There was a problem.

【0010】[0010]

【数4】 本発明は上記課題解決するためになされたものであっ
て、精密に音声スペクトルを表現しながら人間の聴覚特
性を考慮することのできるメル一般化ケプストラムによ
るスペクトル表現を用いることにより、高い主観音声品
質を得ることができる音声符号/復号化方式及びその装
置を提供することを目的とする。
(Equation 4) The present invention has been made in order to solve the above-mentioned problems, and by using a spectral representation by a mel-generalized cepstrum that can consider human auditory characteristics while accurately expressing a speech spectrum, high subjective speech quality It is an object of the present invention to provide a speech coding / decoding system and a device therefor that can obtain

【0011】[0011]

【課題を解決するための手段】上記課題を解決するた
め、本発明に係る音声符号/復号化方式は音声スペクト
ルの表現パラメ−タとして、メル一般化ケプストラムを
用いることを特徴とする。また上記音声符号/復号化方
式を実現する音声符号/復号化装置は、CELP、AD
PCM、MBEを始めとして何らかの音声スペクトル表
現を用いた音声符号/復号化方式を実施する音声符号/
復号化装置において、音声スペクトルの表現に関する部
分(音声のスペクトル解析部、合成フィルタ、ノイズシ
ェ−ピングフィルタ、ポストフィルタ、スペクトルパラ
メ−タ量子化部など)を、メル一般化ケプストラムによ
るものにそれぞれ置き換えた構成をとることを特徴とす
る。
In order to solve the above-mentioned problems, the speech coding / decoding system according to the present invention is characterized in that a mel generalized cepstrum is used as a speech spectrum expression parameter. Further, a voice coding / decoding device that realizes the above voice coding / decoding system is CELP, AD.
A voice code / decoding system that implements a voice coding / decoding method using some kind of voice spectrum expression including PCM and MBE
In the decoding device, parts relating to the representation of the speech spectrum (speech spectrum analysis unit, synthesis filter, noise shaping filter, post filter, spectral parameter quantization unit, etc.) are replaced with those by the mel generalized cepstrum. It is characterized by taking a configuration.

【0012】[0012]

【発明の実施の形態】以下、本発明を図面に示した実施
形態例に基づいて詳細に説明する。尚、本発明に係る音
声符号/復号化方式はADPCM(Adaptive Pulse Cod
e Modulation)、APC(Adaptive Predictive Coding)、
CELP(Code Excited Linear Prediction)、MBE
(MultiBand Excitation Vocoder)、ATC(Adaptive T
ransformation Coding) など、音声のスペクトル表現を
用いる各音声符号/復号化方式に適用することができる
が、ここではCELP符号化方式に適用した例を挙げて
説明する。 (メル一般化ケプストラム分析)本願発明に係る音声符
号方式では線形予測法によって推定された全極スペクト
ル1/A(exp(jω))にかえて、メル一般化ケプ
ストラム分析によって推定されたスペクトルを用いるも
のである。メル一般化ケプストラム分析によって推定さ
れたスペクトルはM次までのメル一般化ケプストラム係
数c=[c(0),...c(M)]Tによって、
BEST MODE FOR CARRYING OUT THE INVENTION The present invention will be described below in detail based on the embodiments shown in the drawings. The voice encoding / decoding method according to the present invention is based on ADPCM (Adaptive Pulse Cod).
e Modulation), APC (Adaptive Predictive Coding),
CELP (Code Excited Linear Prediction), MBE
(MultiBand Excitation Vocoder), ATC (Adaptive T
ransformation coding, etc., it can be applied to each speech coding / decoding method that uses a spectrum representation of speech, but here, an example applied to the CELP coding method will be described. (Mel Generalized Cepstrum Analysis) In the speech coding method according to the present invention, the spectrum estimated by the mel generalized cepstrum analysis is used instead of the all-pole spectrum 1 / A (exp (jω)) estimated by the linear prediction method. It is a thing. The spectrum estimated by the mel generalized cepstrum analysis has mel generalized cepstrum coefficients c = [c (0) ,. . . c (M)] T

【0013】[0013]

【数5】 と表される。ただし、(Equation 5) It is expressed as However,

【0014】[0014]

【数6】 (Equation 6)

【0015】[0015]

【数7】 (Equation 7)

【0016】[0016]

【数8】 である。(Equation 8) It is.

【0017】この分析によって得られたH(z)は必ず
安定となることが保証されており、1次のオ−ルパス関
数Z*-1 =exp(−jω)の位相特性ω* は、標本化
周波数8kHzのときαを0.31に選べば、人間の音
の高さに対する聴覚特性を表すメル尺度をよく近似する
ことが知られている。上記[数5]のスペクトルモデル
は、(α、γ)=(0、−1)で全極モデル、(α、
γ)=(0、0)でケプストラムモデル、また|α|<
1、γ=0とすればメルケプストラムモデルと等価とな
る。またa、γの値により、スペクトルモデルを連続的
に変化させることが可能である。尚、αとγの値による
スペクトルモデルの特徴は次のようにまとめられる。ま
ずαについては、α=0の場合、均一的な周波数分解能
となり、α>0の場合、低周波数域で高い分解能とな
る。またγについては、γ=−1の場合、スペクトルの
極を重視したものとなり、−1<γ<0の場合、γ=−
1とγ=0との中間的な性質を有し、γ=0の場合、ス
ペクトルの極と零を同等に表現したものとなる。
It is guaranteed that H (z) obtained by this analysis is always stable, and the phase characteristic ω * of the first-order all-pass function Z * -1 = exp (-jω) is the sample. It is known that if α is selected to be 0.31 when the digitization frequency is 8 kHz, the Mel scale, which represents the auditory characteristics with respect to the pitch of human sound, can be approximated well. The spectral model of the above [Formula 5] is an all-pole model with (α, γ) = (0, −1), and (α,
γ) = (0,0) with cepstrum model, and | α | <
When 1 and γ = 0, it is equivalent to the mel cepstrum model. Further, the spectrum model can be continuously changed depending on the values of a and γ. The characteristics of the spectral model based on the values of α and γ can be summarized as follows. Regarding α, a uniform frequency resolution is obtained when α = 0, and a high resolution is obtained in a low frequency range when α> 0. Regarding γ, when γ = −1, the pole of the spectrum is emphasized, and when −1 <γ <0, γ = −
It has an intermediate property between 1 and γ = 0. When γ = 0, the poles and zeros of the spectrum are expressed in the same way.

【0018】(合成フィルタの構成)次に合成フィルタ
の構成について説明する。前述したように、分析によっ
て得られる伝達関数H(z)は必ず安定となり、そのス
ペクトルはα、γの値によって連続的に変化するので、
任意のα、γに対する合成フィルタが実現できれば、最
も好ましい合成音が得られるγの値を選択することがで
きる。ここで、メル一般化ケプストラムは各係数値がゲ
インの変化により全体的に変化してしまい取り扱いが容
易でないことから、H(z)からゲインをくくり出し、
ゲインに依存しないパラメ−タによりH(z)を表現す
ることを考える。ゲインをKとして、[数5]を、
(Structure of Synthesis Filter) Next, the structure of the synthesis filter will be described. As described above, the transfer function H (z) obtained by the analysis is always stable, and its spectrum continuously changes depending on the values of α and γ.
If a synthesis filter for arbitrary α and γ can be realized, it is possible to select the value of γ that gives the most preferable synthesized sound. Here, since the mel generalized cepstrum is not easy to handle because each coefficient value changes as a whole due to the change in gain, the gain is calculated from H (z),
Consider expressing H (z) by a parameter that does not depend on gain. [Equation 5] with K as the gain,

【0019】[0019]

【数9】 と変形する。ただし、[Equation 9] And transform. However,

【0020】[0020]

【数10】 (Equation 10)

【0021】[0021]

【数11】 また、[Equation 11] Also,

【0022】[0022]

【数12】 (Equation 12)

【0023】[0023]

【数13】 である。フィルタD(z)のゲインは常に1となること
から、D(z)のメル一般化ケプストラム係数c’は、
(Equation 13) It is. Since the gain of the filter D (z) is always 1, the mel generalized cepstrum coefficient c ′ of D (z) is

【0024】[0024]

【数14】 を満足する。これは、[Equation 14] To be satisfied. this is,

【0025】[0025]

【数15】 と等価である。このとき、c’とcとには、(Equation 15) Is equivalent to At this time, c'and c are

【0026】[0026]

【数16】 の関係が成立する。[数11]は、γ=0のときにはM
LSA(Mel Log Spectrum Approximation) フィルタ、
それ以外のγに対してはMGLSA(Mel Generalized
Log Spectrum Approximation) フィルタとして、高い近
似精度で実現可能である。特に、nを自然数として、γ
=−1/nの場合のみを考えると、合成フィルタD
(z)は、
(Equation 16) Is established. [Equation 11] is M when γ = 0
LSA (Mel Log Spectrum Approximation) filter,
For other γ, MGLSA (Mel Generalized)
It can be realized with high approximation accuracy as a Log Spectrum Approximation) filter. In particular, γ is a natural number and γ
= -1 / n, the synthesis filter D
(Z) is

【0027】[0027]

【数17】 ただし、[Equation 17] However,

【0028】[0028]

【数18】 と表すことができるから、1/C’(z* )のn段接続
となる。しかし、C’(z* )はディレ−フリ−ル−プ
を持つために、直接実現することはできない。そこで
C’(z* )を、
(Equation 18) Since it can be expressed as follows, 1 / C ′ (z * ) is connected in n stages. However, C '(z * ) cannot be directly realized because it has a delay-free loop. So C '(z * )

【0029】[0029]

【数19】 ただし、[Equation 19] However,

【0030】[0030]

【数20】 (Equation 20)

【0031】[0031]

【数21】 (Equation 21)

【0032】[0032]

【数22】 (Equation 22)

【0033】[0033]

【数23】 (Equation 23)

【0034】[0034]

【数24】 (Equation 24)

【0035】[0035]

【数25】 (Equation 25)

【0036】[0036]

【数26】 のように変形する。また、[数19]の右辺第2行目か
ら第3行目への変形は、[数15]で与えられる
(Equation 26) It transforms like. The transformation from the second line to the third line on the right side of [Equation 19] is given by [Equation 15].

【0037】[0037]

【数27】 という関係を用いた。[数25]のA-1c’の計算は、
次の関係式
[Equation 27] Was used. The calculation of A −1 c ′ in [Equation 25] is
The following relational expression

【0038】[0038]

【数28】 により、再帰的に計算することができる。ここで、フィ
ルタB(z* )を
[Equation 28] Can be calculated recursively. Where filter B (z * )

【0039】[0039]

【数29】 とおけば、図1で示されるように1/B(z* )のn段
接続という簡単な構造で実現される。また、音声分析、
音声合成、音声認識などでは、[数29]におけるγ=
−1/3で良い結果が得られていることから、メル一般
化ケプストラムをCELP符号化方式に導入する場合
も、この値を用いることにする。この場合、合成フィル
タは1/B(z* )の3段縦続構成となる。尚、各段の
基本合成フィルタ1/B(z* )は図2に示すブロック
構成となる。
(Equation 29) In other words, it is realized by a simple structure of 1 / B (z * ) n-stage connection as shown in FIG. Also, voice analysis,
For voice synthesis, voice recognition, etc., γ =
Since a good result is obtained at -1/3, this value will be used also when introducing the Mel generalized cepstrum into the CELP coding method. In this case, the synthesis filter has a 3-stage cascade structure of 1 / B (z * ). The basic synthesis filter 1 / B (z * ) at each stage has the block configuration shown in FIG.

【0040】(聴覚重み付けフィルタ、ポストフィルタ
の構成) 線形予測法に基づく合成フィルタ[数36]、
(Structure of Auditory Weighting Filter and Post Filter) Synthesis filter [Equation 36] based on the linear prediction method,

【0041】[0041]

【数30】 聴覚重み付けフィルタ、[数31]、[Equation 30] Auditory weighting filter, [Equation 31],

【0042】[0042]

【数31】 ポストフィルタ、[数32]、(Equation 31) Post filter, [Equation 32],

【0043】[0043]

【数32】 をメル一般化ケプストラム符号系に適用するために[数
33]のように単純に置換しただけでは、
(Equation 32) In order to apply to the mel generalized cepstrum code system, simply substituting as in [Equation 33] gives

【0044】[0044]

【数33】 合成フィルタ、[数34]、[Equation 33] Synthesis filter, [Equation 34],

【0045】[0045]

【数34】 聴覚重み付けフィルタ、[数35]、(Equation 34) Auditory weighting filter, [Equation 35],

【0046】[0046]

【数35】 ポストフィルタ、[数36]、(Equation 35) Post filter, [Equation 36],

【0047】[0047]

【数36】 となり、メル一般化ケプストラム符号系はかなり複雑な
ものとなってしまうが、これを合成フィルタ、[数3
7]、
[Equation 36] Therefore, the mel-generalized cepstrum code system becomes quite complicated.
7],

【0048】[0048]

【数37】 聴覚重み付けフィルタ、[数38]、(37) Auditory weighting filter, [Equation 38],

【0049】[0049]

【数38】 ポストフィルタ、[数39]、(38) Post filter, [Equation 39],

【0050】[0050]

【数39】 とすることにより、非常に簡単に簡単なフィルタ構造の
符号化系を構成することが可能となる。
[Equation 39] With this, it becomes possible to construct a coding system having a simple filter structure very easily.

【0051】(メル一般化ケプストラム分析によるCE
LP方式)次に、上述したようなメル一般化ケプストラ
ム分析方と該分析法によって得られたパラメ−タより求
めたフィルタ係数で駆動に基づいて構成された合成フィ
ルタ、聴覚重み付けフィルタ及びポストフィルタををC
ELPに適用した例を図面に示した形態例に基づいて説
明する。図3はメル一般化ケプストラム分析によるCE
LP符号化を実現した場合のCELP符号器の基本構成
を示した図であり、また、図4はメル一般化ケプストラ
ムによるCELP復号器の基本構成を示した図である。
ここで、聴覚重み付けフィルタ2、ポストフィルタ6
は、それぞれB(z* )、1/B(z* )を用いて実現
する。これにより、スペクトルの極及び零を人間の聴覚
特性を考慮した形で表現できると共に、簡単な構成の合
成フィルタで音声合成を達成することができるのみなら
ず、メル一般化ケプストラム分析を用いて聴覚重み付け
フィルタや、ポストフィルタのフィルタ係数を上記のよ
うに選定したため、より高品質な音声合成が可能とな
る。
(CE by Mel Generalized Cepstrum Analysis
LP method) Next, a synthesis filter, an auditory weighting filter, and a post filter configured on the basis of driving with the above-described mel generalized cepstrum analysis method and the filter coefficients obtained from the parameters obtained by the analysis method are used. To C
An example applied to the ELP will be described based on the form example shown in the drawings. Figure 3 shows CE by mel generalized cepstrum analysis.
FIG. 4 is a diagram showing a basic configuration of a CELP encoder when LP encoding is realized, and FIG. 4 is a diagram showing a basic configuration of a CELP decoder based on the Mel generalized cepstrum.
Here, the auditory weighting filter 2 and the post filter 6
Are realized by using B (z * ) and 1 / B (z * ), respectively. As a result, the poles and zeros of the spectrum can be expressed in a form that takes human auditory characteristics into consideration, and not only can speech synthesis be achieved by a synthesis filter with a simple configuration, but also the mel generalized cepstrum analysis can be used. Since the filter coefficients of the weighting filter and the post filter are selected as described above, higher quality speech synthesis can be performed.

【0052】図5(a)は本発明に係る音声符号/復号
化方式における聴覚重み付けとポストフィルタリングの
様子を示す図であり、図5(b)は本発明と従来法との
比較のため、線形予測法(LPC)を用いた音声符号/
復号化方式における聴覚重み付けとポストフィルタリン
グの様子を示す図である。尚、線形予測法の重み付けフ
ィルタとポストフィルタには、それぞれ[数2]、[数
3]を用い、各パラメ−タは(δ1、δ2)=(0.
9、0.4)、(δ3、δ4)=(0.5、0.8)、
μ=0.5とした。図5(a)に示すメル一般化ケプス
トラム分析によって推定される音声スペクトルと、図5
(b)に示す線形予測法によるものとを比較すると明ら
かなように、スペクトルの極だけでなく零も表現され、
特に低周波数域での分解能が高くなっていることが分か
る。また、本発明に係る符号化系の聴覚重み付けとポス
トフィルタリングの処理がメル一般化ケプストラムを介
して行われるため、推定されたスペクトルの情報がよく
保存されており、聴覚的な性能向上が期待できる。
FIG. 5A is a diagram showing a state of perceptual weighting and post-filtering in the voice encoding / decoding system according to the present invention, and FIG. 5B is a view for comparing the present invention with the conventional method. Speech code using linear prediction method (LPC) /
It is a figure which shows the state of perceptual weighting and a post-filtering in a decoding system. [Equation 2] and [Equation 3] are used for the weighting filter and the post filter of the linear prediction method, and each parameter is (δ1, δ2) = (0.
9, 0.4), (δ3, δ4) = (0.5, 0.8),
It was set to μ = 0.5. The speech spectrum estimated by the mel generalized cepstrum analysis shown in FIG.
As is clear from comparison with the linear prediction method shown in (b), not only the poles of the spectrum but also zero are expressed,
It can be seen that the resolution is particularly high in the low frequency range. Further, since the auditory weighting and post-filtering processing of the encoding system according to the present invention is performed via the mel generalized cepstrum, the estimated spectrum information is well preserved, and the auditory performance can be expected to be improved. .

【0053】しかし、図3、4に示した構成では、聴覚
重み付けフィルタやポストフィルタの係数がB(z*
或いは1/B(z* )であり、特に聴覚重み付けフィル
タには変数が存在しないため聴覚重み付けの強さを調整
することができない。また、ポストフィルタには傾き補
正係数μが存在するが、この係数ではポストフィルタリ
ングの強さを調整することができず、したがって、人間
の聴覚特性を考慮した高品質な音声を各フィルタの調整
により得ることができない。そこで、z* 領域の帯域幅
拡張を行うことによって聴覚重み付けやポストフィルタ
リングの強さを調節する方法を以下に示す。
However, in the configurations shown in FIGS. 3 and 4, the coefficients of the perceptual weighting filter and the post filter are B (z * ).
Alternatively, it is 1 / B (z * ), and since the auditory weighting filter has no variable, the strength of auditory weighting cannot be adjusted. In addition, although there is a slope correction coefficient μ in the post filter, it is not possible to adjust the strength of post filtering with this coefficient. Therefore, by adjusting each filter, high-quality speech considering human auditory characteristics can be adjusted. Can't get Therefore, a method of adjusting the perceptual weighting and the strength of post-filtering by expanding the bandwidth of the z * region will be described below.

【0054】(z* 領域での帯域幅拡張)z* 領域での
帯域幅拡張は、[数2]、[数3]のA(z/β)のよ
うにz→z/βとするのではなく、z* →z* /βと置
き換えることにより、帯域幅拡張を行うものである。
[数29]のB(z* )、つまりc’(z* )をz*
域で帯域幅拡張したc’(z* /β)は、
[0054] (z * area bandwidth extension in) bandwidth extension in the z * region, [Expression 2], for the z → z / beta as A (z / β) [Expression 3] Instead, the bandwidth is expanded by replacing z * → z * / β.
B (z * ) of [Equation 29], that is, c ′ (z * / β) obtained by bandwidth-extending c ′ (z * ) in the z * region is

【0055】[0055]

【数40】 ただし、(Equation 40) However,

【0056】[0056]

【数41】 と表すことができる。[数40]を[数19]と同様に
変形していくと、
[Equation 41] It can be expressed as. When [Equation 40] is transformed in the same manner as [Equation 19],

【0057】[0057]

【数42】 ただし、(Equation 42) However,

【0058】[0058]

【数43】 となる。一般に、b(0)≠0となり、c* (z*
β)のゲインは1とならないので、[数42]からゲイ
ンをくくり出すと、
[Equation 43] Becomes Generally, b (0) ≠ 0 and c * (z * /
The gain of β) is not 1, so if we derive the gain from [Equation 42],

【0059】[0059]

【数44】 ただし、[Equation 44] However,

【0060】[0060]

【数45】 [Equation 45]

【0061】[0061]

【数46】 また、[Equation 46] Also,

【0062】[0062]

【数47】 となり、bとb’との関係は次式で与えられる。[Equation 47] Therefore, the relation between b and b ′ is given by the following equation.

【0063】[0063]

【数48】 以上のように、z領域での帯域幅拡張の操作は、c’か
ら[数43]、つまり次の再帰式
[Equation 48] As described above, the bandwidth expansion operation in the z domain is performed by the following recursive expression from c ′ to [Equation 43].

【0064】[0064]

【数49】 により[数50]を計算し、[数48]を用いて[数5
1]を求める。この係数、[数51]をB(z* )の係
数とすることにより、B(z* )と全く同じ構成で実現
することができる。
[Equation 49] [Equation 50] is calculated by, and [Equation 5] is calculated using [Equation 48].
1] is required. This factor, by a factor of B (z *) the number 51, can be implemented by B (z *) with exactly the same configuration.

【0065】[0065]

【数50】 [Equation 50]

【0066】[0066]

【数51】 さらに、[数43]は(Equation 51) Furthermore, [Equation 43] is

【0067】[0067]

【数52】 と変形することも可能であり、bから行列A-1FAを介
してb* ’を求めることも可能である。この際、行列A
-1FAの計算も[数49]と同様に、再帰的に行うこと
ができる。聴覚重み付けとポストフィルタリングは、フ
ィルタB(z* )、1/B(z*)、B(z* /β)、
1/B(z* /β)を組み合わせることにより、その強
さと形状を調節することができ、その一例を図6、図7
に示す。
[Equation 52] It is also possible to transform b to obtain b * ′ from b through the matrix A −1 FA. At this time, the matrix A
The calculation of −1 FA can be performed recursively as in [Equation 49]. Perceptual weighting and post-filtering are performed with filters B (z * ), 1 / B (z * ), B (z * / β),
By combining 1 / B (z * / β), its strength and shape can be adjusted, and one example thereof is shown in FIGS.
Shown in

【0068】図6は聴覚重み付けフィルタの構成の一
例、図7はポストフィルタの構成の一例を示したもので
あり、これらのフィルタによる聴覚重み付けの様子を図
8(a)乃至(d)に示し、またポストフィルタリング
のスペクトルの様子を図9(a)乃至(d)に示す。図
9に示したポストフィルタリングのスペクトルの様子で
は、傾き補正係数を(a)から(d)まで、それぞれμ
=0.5、0.4、0.3、0.2とした。また、図8
(a)及び図9(a)の各スペクトルは、図5(a)に
示した重み付けとポストフィルタリングのスペクトルと
等価となる。したがって、図8(a)乃至(d)及び図
9(a)乃至(d)から明らかなように、低周波数域の
分解能を損なうことなく、βを小さくすることで聴覚重
み付けを強く、ポストフィルタリングはβを大きくする
ことで弱めることができる。
FIG. 6 shows an example of the structure of the perceptual weighting filter, and FIG. 7 shows an example of the structure of the post filter. The state of perceptual weighting by these filters is shown in FIGS. 8 (a) to 8 (d). Moreover, the states of the spectra of the post-filtering are shown in FIGS. In the state of the spectrum of the post-filtering shown in FIG. 9, the slope correction coefficients from (a) to (d) are respectively μ
= 0.5, 0.4, 0.3, 0.2. FIG.
Each spectrum in (a) and FIG. 9 (a) is equivalent to the weighting and post-filtering spectrum shown in FIG. 5 (a). Therefore, as is clear from FIGS. 8A to 8D and FIGS. 9A to 9D, by reducing β without lowering the resolution in the low frequency range, the auditory weighting is strengthened and the post-filtering is performed. Can be weakened by increasing β.

【0069】図10はz* 領域の帯域幅拡張を導入した
ときのランニングスペクトルを示した図であり、(a)
は入力音声波形、(b)はメル一般化ケプストラム分析
によるランニングスペクトル、(c)は従来法(LP
C)分析によるランニングスペクトルである。また、
(b)及び(c)のi)、ii)、iii)はそれぞ
れ、入力音声に対する推定されたスペクトル、聴覚重み
付け、ポストフィルタリングによる状態を示す。ただ
し、図の関係上、聴覚重み付けii)はその逆フィルタ
のスペクトルとして描かれている。このランニングスペ
クトルを得るために、各パラメ−タは聴覚重み付けでは
β=0.8、ポストフィルタリングではβ=μ=0.3
とし、また、(c)に示した従来法分析によるランニン
グスペクトルを得るためのパラメ−タは図5(b)と同
じ値を用いた。さらに、(b)、(c)に示されたもの
のうち、聴覚重み付け、ポストフィルタリングのスペク
トルii)及びiii)は推定されたスペクトルi)の
2倍のスケ−ルで描かれている。この図からも明らかな
ように、本発明に係る符号化系の中で表現されるスペク
トルは低周波数域で高い分解能をもつことが分かる。
FIG. 10 is a diagram showing a running spectrum when the bandwidth extension of the z * region is introduced, and (a)
Is an input speech waveform, (b) is a running spectrum by mel generalized cepstrum analysis, and (c) is a conventional method (LP
C) Running spectrum by analysis. Also,
(B) and (c) i), ii), and iii) respectively show the estimated spectrum, the perceptual weighting, and the state by post-filtering with respect to the input speech. However, due to the relation of the figure, the perceptual weighting ii) is drawn as the spectrum of the inverse filter. To obtain this running spectrum, each parameter is β = 0.8 for auditory weighting and β = μ = 0.3 for post filtering.
Further, the same values as those in FIG. 5B were used as the parameters for obtaining the running spectrum by the conventional method analysis shown in (c). Further, among the ones shown in (b) and (c), the auditory weighting and post-filtering spectra ii) and iii) are drawn in a scale twice as large as the estimated spectrum i). As is clear from this figure, it can be seen that the spectrum represented in the coding system according to the present invention has high resolution in the low frequency range.

【0070】図11は本発明に係る音声符号/復号化方
式をCELPに適用した符号化器系の他の実施の形態例
を示す図である。本発明に係る音声符号/復号化方式、
すなわち、メル一般化ケプストラム分析による方式を用
いた場合には符号化器においては聴覚重み付けフィルタ
の位置を変更することにより、図3に示した実施の形態
例と比較して簡単な構成により符号化系全体を構成する
ことができる。また、聴覚重み付けの強さを調整するた
めには、図12に示すような構成とすることにより、合
成フィルタの構成を簡単にすることも可能である。
FIG. 11 is a diagram showing another embodiment of the encoder system in which the speech coding / decoding system according to the present invention is applied to CELP. A voice coding / decoding system according to the present invention;
That is, in the case of using the method based on the mel generalized cepstrum analysis, the position of the auditory weighting filter is changed in the encoder, so that the encoding is performed with a simpler configuration than that of the embodiment shown in FIG. The whole system can be constructed. Further, in order to adjust the strength of perceptual weighting, it is possible to simplify the structure of the synthesis filter by adopting the structure shown in FIG.

【0071】[0071]

【実施例】以下に上述した実施の形態の例を示す。図1
3(a)は音声の分析条件、同図(b)は符号化系のビ
ット割り当てを示す表である。適応符号帳は、非整数ラ
グを含む8ビット256状態を表現する。雑音符号帳
は、ガウス雑音により構成される。また、符号長の探索
は、適応符号帳、雑音符号帳の順に行われ、雑音符号帳
の探索は、適応符号帳で決定されたベクトルに雑音符号
長の各ベクトルを直交化させてから行った。さらに合成
フィルタの安定性を保証するため、メル一般化ケプスト
ラムはC’(z* )のz* 領域における線スペクトル表
現を用いて行われた。従来法、本発明ともに、以上のよ
うな構成を用い、音声分析とそれに基づくフィルタ以外
の構成は全く同一の条件で、等価Q値を用いた主観評価
実験を行った。
EXAMPLE An example of the above-described embodiment will be shown below. FIG.
3 (a) is a table showing speech analysis conditions, and FIG. 3 (b) is a table showing bit allocation of the coding system. The adaptive codebook represents an 8-bit 256 state with a non-integer lag. The noise codebook is composed of Gaussian noise. The code length search is performed in the order of the adaptive codebook and the noise codebook, and the noise codebook search is performed after orthogonalizing each vector of the noise code length to the vector determined by the adaptive codebook. . Further, to ensure the stability of the synthesis filter, the mel generalized cepstrum was performed using a line spectral representation in the z * domain of C '(z * ). In both the conventional method and the present invention, a subjective evaluation experiment using the equivalent Q value was performed under the same conditions for the configurations other than the voice analysis and the filter based on the above configurations.

【0072】(客観評価実験の結果)図14に上記評価
実験の結果を示す。同図に示すように、等価Q値で平均
約2.3dBの主観性能の改善を達成している。
(Results of Objective Evaluation Experiment) FIG. 14 shows the results of the above evaluation experiment. As shown in the figure, an average Q improvement of about 2.3 dB in subjective performance is achieved.

【0073】[0073]

【発明の効果】本発明は以上説明したように、精密に音
声スペクトルを表現しながら人間の聴覚特性を考慮する
ことのできるメル一般化ケプストラムによるスペクトル
表現を用いることにより、高い主観音声品質を得ること
ができ、音声符号/復号化システムの音声品質を向上す
る上で著しい効果を発揮するものである。
As described above, according to the present invention, a high subjective voice quality is obtained by using the spectral representation by the mel-generalized cepstrum capable of considering the human auditory characteristics while accurately expressing the speech spectrum. It is possible to improve the voice quality of the voice encoding / decoding system.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一形態例の構成説明図。FIG. 1 is an explanatory diagram of the configuration of one embodiment of the present invention.

【図2】各段の基本合成フィルタの1/B(z* )を示
すブロック図。
FIG. 2 is a block diagram showing 1 / B (z * ) of a basic synthesis filter of each stage.

【図3】メル一般化ケプストラム分析によるCELP符
号化を実現した場合のCELP符号器の基本構成を示す
図。
FIG. 3 is a diagram showing a basic configuration of a CELP encoder when CELP encoding is realized by a mel generalized cepstrum analysis.

【図4】メル一般化ケプストラム分析によるCELP復
号器の基本構成を示す図。
FIG. 4 is a diagram showing a basic configuration of a CELP decoder based on mel generalized cepstrum analysis.

【図5】(a) は本発明に係る音声符号/復号化方式にお
ける聴覚重み付けとポストフィルタリングの様子を示す
図であり、(b) は本発明と従来例との比較図。
5A is a diagram showing a state of perceptual weighting and post-filtering in a voice encoding / decoding system according to the present invention, and FIG. 5B is a comparison diagram of the present invention and a conventional example.

【図6】聴覚重み付けフィルタの構成の一例を示す図。FIG. 6 is a diagram showing an example of the configuration of a perceptual weighting filter.

【図7】ポストフィルタの構成の一例を示す図。FIG. 7 is a diagram showing an example of a configuration of a post filter.

【図8】(a) 乃至(d) はフィルタによる聴覚重み付けの
様子を示す図。
8A to 8D are diagrams showing how auditory weighting is performed by a filter.

【図9】(a) 乃至(d) はポストフィルタリングのスペク
トルの様子を示す図。
9A to 9D are diagrams showing a spectrum of post-filtering.

【図10】z* 領域の帯域幅拡張を導入したときのラン
ニングスペクトルを示した図であり、(a) は入力音声波
形、(b) はメル一般化ケプストラム分析によるランニン
グスペクトル、(c) は従来法(LPC)分析によるラン
ニングスペクトルである。
FIG. 10 is a diagram showing a running spectrum when the bandwidth extension of the z * region is introduced, (a) is an input speech waveform, (b) is a running spectrum by mel generalized cepstrum analysis, and (c) is. It is a running spectrum by a conventional method (LPC) analysis.

【図11】本発明に係る音声符号/復号化方式をCEL
Pに適用した符号化器系の他の実施の形態例を示す図で
ある。
FIG. 11 is a block diagram showing a voice coding / decoding method according to the present invention as CEL.
It is a figure which shows the other embodiment of the encoder system applied to P.

【図12】聴覚重み付けの強さを調整するための構成例
を示す図である。
FIG. 12 is a diagram showing a configuration example for adjusting the strength of perceptual weighting.

【図13】(a) は音声の分析条件、(b) は符号化系のビ
ット割り当てを示す図。
13A is a diagram showing speech analysis conditions, and FIG. 13B is a diagram showing coding system bit allocation.

【図14】評価実験の結果を示す図。FIG. 14 is a diagram showing a result of an evaluation experiment.

【図15】入力音声から線形予測分析法によってスペク
トル包絡に対応する線形予測係数を抽出し、これを符号
帳に蓄えた励振ベクトルで駆動することで音声を合成す
る符号化方式を用いたCELP符号化方式の構成を示す
図。
FIG. 15 is a CELP code using a coding method in which a linear prediction coefficient corresponding to a spectrum envelope is extracted from input speech by a linear prediction analysis method and is driven by an excitation vector stored in a codebook to synthesize speech. The figure which shows the structure of the conversion system.

【図16】従来の復号器の構成説明図。FIG. 16 is an explanatory diagram of a configuration of a conventional decoder.

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596045638 小石田 和人 神奈川県川崎市中原区苅宿10鈴影荘2−2 (71)出願人 000003104 東洋通信機株式会社 神奈川県高座郡寒川町小谷2丁目1番1号 (72)発明者 今井 聖 東京都町田市玉川学園5−24−3 (72)発明者 小林 隆夫 神奈川県横浜市都筑区南山田1−4−3− 201 (72)発明者 徳田 恵一 東京都町田市成瀬2739−12 リヴェール西 成瀬204 (72)発明者 小石田 和人 神奈川県川崎市中原区苅宿10鈴影荘2−2 (72)発明者 古川 祐行 神奈川県高座郡寒川町小谷二丁目1番1号 東洋通信機株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (71) Applicant 596045638 Kazuto Koishida 2-2 Suzukageso, 10 Kayajuku, Nakahara-ku, Kawasaki-shi, Kanagawa 2 (71) Applicant 000003104 Toyo Communication Equipment Co., Ltd. 2 Otani, Samukawa-cho, Takaza-gun, Kanagawa Prefecture 1-1-1 (72) Inventor Satoshi Imai 5-24-3 Tamagawa Gakuen, Machida, Tokyo (72) Inventor Takao Kobayashi 1-4-3-201 Minamiyamada, Tsuzuki-ku, Yokohama-shi, Kanagawa (72) Inventor Tokuda Keiichi Tokyo 2739-12 Naruse, Machida-shi, Tokyo River 72 Nishinase 204 (72) Inventor Kazuto Koishida 2-2 Suzukageso, 10 Kayajuku, Nakahara-ku, Kawasaki-shi, Kanagawa Yusuke Furukawa Kanagawa-cho, Takaza-gun, Kanagawa 2-1-1 Kotani Toyo Communication Equipment Co., Ltd.

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】音声のスペクトル表現を用いる音声符号/
復号化方式において、べきパラメ−タγをγ=0若しく
はγ=−1以外に設定したメル一般化ケプストラムをパ
ラメ−タとしたことを特徴とする音声符号/復号化方
式。
1. A speech code using a spectral representation of speech /
A speech coding / decoding method characterized in that, in the decoding method, a mel-generalized cepstrum whose power parameter γ is set to a value other than γ = 0 or γ = -1 is used as a parameter.
【請求項2】符号側においては適応符号帳と、雑音符号
帳と、誤差最小化と、合成フィルタと、聴覚重み付けフ
ィルタとを備え、復号側においては適応符号帳と、雑音
符号帳と、合成フィルタと、ポストフィルタとを備えた
CELP音声符号/復号化方式において、前記合成フィ
ルタの係数はメル一般化ケプストラム分析によるパラメ
−タを用いたことを特徴とするCELP音声符号/復号
化装置。
2. The adaptive codebook, the random codebook, the error minimization, the synthesis filter, and the auditory weighting filter are provided on the coding side, and the adaptive codebook, the random codebook, and the synthesis on the decoding side. In a CELP speech coding / decoding system including a filter and a post filter, the CELP speech coding / decoding device is characterized in that the coefficient of the synthesizing filter uses a parameter by mel generalized cepstrum analysis.
【請求項3】請求項2記載のCELP音声符号/復号化
装置において、前記符号及び復号側の合成フィルタは1
/B(z* )のn段接続により構成すると共に、符号側
における聴覚重み付けフィルタとしてB(z* )とし、
さらに複合側のポストフィルタとして1/B(z* )を
用いたことを特徴とするCELP音声符号/復号化装
置。
3. The CELP speech coding / decoding apparatus according to claim 2, wherein the coding and decoding side synthesis filter is 1.
/ B (z * ) is connected in n stages, and the auditory weighting filter on the code side is B (z * ),
Further, the CELP speech coding / decoding device is characterized in that 1 / B (z * ) is used as a post filter on the composite side.
【請求項4】請求項2記載のCELP音声符号/復号化
装置において、前記符号及び復号側の合成フィルタは1
/B(z* )のn段接続により構成すると共に、前記聴
覚重み付けフィルタがB(z* )、B(z* )、1/B
(z* /β)の直列接続を含む構成としたことを特徴と
するCELP音声符号/復号化装置。
4. The CELP speech coding / decoding device according to claim 2, wherein the synthesizing filter on the coding and decoding side is 1.
/ B (z * ) is connected in n stages, and the auditory weighting filter is B (z * ), B (z * ), 1 / B.
A CELP speech coding / decoding device having a configuration including a series connection of (z * / β).
【請求項5】請求項2記載のCELP音声符号/復号化
装置において、前記符号及び復号側の合成フィルタは1
/B(z* )のn段接続により構成すると共に、前記ポ
ストフィルタがB(z* /β)、1/B(z* )の直列
接続を含む構成としたことを特徴とするCELP音声符
号/復号化装置。
5. The CELP speech coding / decoding device according to claim 2, wherein the coding and decoding side synthesis filter is 1.
/ B (z * ) n-stage connection, and the post filter includes a series connection of B (z * / β) and 1 / B (z * ) in series. / Decoding device.
【請求項6】請求項3、4及び5記載の合成フィルタに
おいてn=3とすることを特徴としたCELP音声符号
/復号化装置。
6. A CELP speech coder / decoder according to claim 3, 4 or 5, wherein n = 3.
【請求項7】請求項2記載のCELP音声符号/復号化
装置において、前記符号側の合成フィルタは1/B(z
* )の2段接続により構成すると共に前記聴覚重み付け
フィルタをB(z* )により構成し、該合成フィルタと
聴覚重み付けフィルタとの出力差を誤差最少化するよう
に構成したことを特徴とするCELP音声符号/復号化
装置。
7. The CELP speech coder / decoder according to claim 2, wherein the synthesizing filter on the code side is 1 / B (z
CE ), wherein the auditory weighting filter is configured by B (z * ) and the output difference between the synthesis filter and the auditory weighting filter is minimized. Speech coding / decoding device.
【請求項8】請求項2記載のCELP音声符号/復号化
装置において、前記復号側の合成フィルタは1/B(z
* )、1/B(z* /β)の直列接続により構成すると
共にポストフィルタをB(z* )B(z* )/B(z*
/β)により構成し、該合成フィルタとポストフィルタ
との出力差を誤差最小化するように構成したことを特徴
とするCELP音声符号/復号化装置。
8. The CELP speech coding / decoding apparatus according to claim 2, wherein the decoding side synthesis filter is 1 / B (z
* ) And 1 / B (z * / β) are connected in series and the post filter is B (z * ) B (z * ) / B (z *
/ Β), and is configured to minimize the error in the output difference between the synthesis filter and the post filter.
【請求項9】請求項2記載のCELP音声符号/復号化
装置において、メル一般化ケプストラムをC’(z*
のz* 領域における線スペクトル表現を用いて量子化、
補間することを特徴とするCELP符号/復号化装置。
9. The CELP speech coder / decoder according to claim 2, wherein the mel generalized cepstrum is C ′ (z * ).
Quantization using a line spectral representation in the z * domain of
A CELP coding / decoding device characterized by interpolating.
JP08061896A 1996-03-08 1996-03-08 Audio encoding / decoding system and apparatus Expired - Lifetime JP3515853B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08061896A JP3515853B2 (en) 1996-03-08 1996-03-08 Audio encoding / decoding system and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08061896A JP3515853B2 (en) 1996-03-08 1996-03-08 Audio encoding / decoding system and apparatus

Publications (2)

Publication Number Publication Date
JPH09244698A true JPH09244698A (en) 1997-09-19
JP3515853B2 JP3515853B2 (en) 2004-04-05

Family

ID=13723341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08061896A Expired - Lifetime JP3515853B2 (en) 1996-03-08 1996-03-08 Audio encoding / decoding system and apparatus

Country Status (1)

Country Link
JP (1) JP3515853B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327600A (en) * 1997-10-03 1999-11-26 Matsushita Electric Ind Co Ltd Method and device for compressing audio signal, method and device for compressing voice signal and device and method for recognizing voice
WO2008032828A1 (en) * 2006-09-15 2008-03-20 Panasonic Corporation Audio encoding device and audio encoding method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327600A (en) * 1997-10-03 1999-11-26 Matsushita Electric Ind Co Ltd Method and device for compressing audio signal, method and device for compressing voice signal and device and method for recognizing voice
WO2008032828A1 (en) * 2006-09-15 2008-03-20 Panasonic Corporation Audio encoding device and audio encoding method
US8239191B2 (en) 2006-09-15 2012-08-07 Panasonic Corporation Speech encoding apparatus and speech encoding method
JP5061111B2 (en) * 2006-09-15 2012-10-31 パナソニック株式会社 Speech coding apparatus and speech coding method

Also Published As

Publication number Publication date
JP3515853B2 (en) 2004-04-05

Similar Documents

Publication Publication Date Title
JP3707116B2 (en) Speech decoding method and apparatus
US7171355B1 (en) Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
EP1141946B1 (en) Coded enhancement feature for improved performance in coding communication signals
JP3707153B2 (en) Vector quantization method, speech coding method and apparatus
JP3680380B2 (en) Speech coding method and apparatus
JP4550289B2 (en) CELP code conversion
KR100304682B1 (en) Fast Excitation Coding for Speech Coders
CN101180676B (en) Methods and apparatus for quantization of spectral envelope representation
JP4005154B2 (en) Speech decoding method and apparatus
JP3235703B2 (en) Method for determining filter coefficient of digital filter
JP3234609B2 (en) Low-delay code excitation linear predictive coding of 32Kb / s wideband speech
JP4879748B2 (en) Optimized composite coding method
JPH1091194A (en) Method of voice decoding and device therefor
US20040015346A1 (en) Vector quantizing for lpc parameters
JPH09127996A (en) Voice decoding method and device therefor
JPH1097300A (en) Vector quantizing method, method and device for voice coding
JPH0869299A (en) Voice coding method, voice decoding method and voice coding/decoding method
JP4040126B2 (en) Speech decoding method and apparatus
JPH10124092A (en) Method and device for encoding speech and method and device for encoding audible signal
Schnitzler A 13.0 kbit/s wideband speech codec based on SB-ACELP
JP3515853B2 (en) Audio encoding / decoding system and apparatus
de Silva et al. A modified CELP model with computationally efficient adaptive codebook search
Copperi et al. Vector quantization and perceptual criteria for low-rate coding of speech
US5826223A (en) Method for generating random code book of code-excited linear predictive coding
JP3520955B2 (en) Acoustic signal coding

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040119

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100123

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110123

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110123

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140123

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term