JPH09127987A - Signal coding method and device therefor - Google Patents

Signal coding method and device therefor

Info

Publication number
JPH09127987A
JPH09127987A JP7302199A JP30219995A JPH09127987A JP H09127987 A JPH09127987 A JP H09127987A JP 7302199 A JP7302199 A JP 7302199A JP 30219995 A JP30219995 A JP 30219995A JP H09127987 A JPH09127987 A JP H09127987A
Authority
JP
Japan
Prior art keywords
signal
band
pitch
circuit
term prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7302199A
Other languages
Japanese (ja)
Inventor
Atsushi Matsumoto
淳 松本
Shiro Omori
士郎 大森
Masayuki Nishiguchi
正之 西口
Kazuyuki Iijima
和幸 飯島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP7302199A priority Critical patent/JPH09127987A/en
Priority to TW085112854A priority patent/TW321810B/zh
Priority to AU70373/96A priority patent/AU725251B2/en
Priority to US08/736,507 priority patent/US5819212A/en
Priority to EP02017464A priority patent/EP1262956B1/en
Priority to EP96307742A priority patent/EP0770985B1/en
Priority to BR9605251A priority patent/BR9605251A/en
Priority to DE69631728T priority patent/DE69631728T2/en
Priority to KR1019960048692A priority patent/KR970024629A/en
Priority to DE69634645T priority patent/DE69634645T2/en
Priority to CN96121964A priority patent/CN1096148C/en
Publication of JPH09127987A publication Critical patent/JPH09127987A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To perform a plurality of decoding operations differed in bit rate, enhance the coding efficiency, and minimize the deterioration of a regenerated sound even at a low bit rate. SOLUTION: From the input signal from a terminal 101, a low-pass side signal is taken out by a LPF(low pass filter) 102, LPC-analyzed by a LPC analyzing and quantizing part 130, a LPC residual which is a short-range predictive residual is determined by a LPC reverse filter 111, a pitch is then determined by a pitch analyzing circuit 115, and a long-range prediction is performed by a pitch reverse filter 112 to determine a pitch residual. This pitch residual is MDCT-processed by a MDCT(modified discrete cosine transformation) circuit 113, and vector-quantized by a VQ(vector quantizing) circuit 114, and the quantized index is transmitted together with pitch lag and pitch gain. As the parameter for expressing LPC coefficient, a SLP (line spectrum pair) is transmitted.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、広帯域音声信号の
ような入力信号を符号化する信号符号化方法及び装置に
関し、特に、音声として充分な明瞭度が得られる電話帯
域とそれ以外の帯域とに分割し、電話帯域については独
立したコーデックを実現できるような信号符号化方法及
び装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a signal coding method and apparatus for coding an input signal such as a wideband voice signal, and particularly to a telephone band and a band other than the telephone band in which sufficient intelligibility as voice is obtained. The present invention relates to a signal coding method and apparatus that can be divided into two and realize an independent codec for a telephone band.

【0002】[0002]

【従来の技術】オーディオ信号(音声信号や音響信号を
含む)の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。
2. Description of the Related Art Various coding methods are known in which signal compression is performed by utilizing the statistical properties of audio signals (including voice signals and acoustic signals) in the time domain and frequency domain and human auditory characteristics. ing. As this encoding method,
Broadly speaking, time domain coding, frequency domain coding,
Examples include analysis and synthesis coding.

【0003】音声信号等の高能率符号化の例として、ハ
ーモニック(Harmonic)符号化、MBE(Multiband Ex
citation: マルチバンド励起)符号化等のサイン波分析
符号化や、SBC(Sub-band Coding:帯域分割符号
化)、LPC(Linear Predictive Coding: 線形予測符
号化)、あるいはDCT(離散コサイン変換)、MDC
T(モデファイドDCT)、FFT(高速フーリエ変
換)等が知られている。
[0003] Examples of high-efficiency coding of voice signals and the like include harmonic coding and MBE (Multiband Ex).
citation: Sine wave analysis coding such as multi-band excitation coding, SBC (Sub-band Coding: band division coding), LPC (Linear Predictive Coding: linear predictive coding), or DCT (discrete cosine transform), MDC
T (Modified DCT), FFT (Fast Fourier Transform), etc. are known.

【0004】[0004]

【発明が解決しようとする課題】ところで、入力信号を
複数の帯域に分割して符号化する符号化技術も種々知ら
れているが、低域側も高域側も統一的な方法で符号化が
行われているため、低域側信号の符号化には好適な符号
化方法であっても、高域側信号の符号化では効率が悪い
とか、あるいはその逆の場合もあり、特にビットレート
を低くして伝送しようとする場合に、良好な符号化が行
えないこともある。
By the way, various encoding techniques for dividing an input signal into a plurality of bands and encoding the same are known, but the low side and the high side are encoded by a uniform method. Therefore, even if the encoding method is suitable for encoding the low-frequency side signal, the efficiency may be low in the encoding of the high-frequency side signal, or vice versa. When attempting to transmit with a low value, good coding may not be performed.

【0005】また、符号化復号化装置には、種々のレー
トのものが提供されているが、レートの異なる毎に別の
装置を用いるのは不便であり、1台の装置で複数の異な
るビットレートの信号を符号化あるいは復号化できるこ
とが望ましい。
Further, although various rates of encoding / decoding apparatus are provided, it is inconvenient to use a different apparatus for each different rate, and one apparatus has a plurality of different bits. It is desirable to be able to encode or decode rate signals.

【0006】本発明は、このような実情に鑑みてなされ
たものであり、帯域分割して符号化する場合に、少ない
ビット数で高品質の再生音が得られ、また、所定の帯
域、例えば電話帯域については独立したコーデックを実
現できるような音声符号化方法及び装置の提供を目的と
する。
The present invention has been made in view of such circumstances, and when band-splitting and encoding, a high-quality reproduced sound can be obtained with a small number of bits, and a predetermined band, for example, It is an object of the present invention to provide a voice coding method and apparatus that can realize an independent codec for a telephone band.

【0007】[0007]

【課題を解決するための手段】本発明に係る音声復号化
方法は、上述した課題を解決するために、入力信号を帯
域分割し、分割された帯域毎の信号に対してそれぞれの
帯域の信号特性に応じた互いに異なる符号化を施すこと
を特徴としている。
In order to solve the above-mentioned problems, a speech decoding method according to the present invention divides an input signal into bands, and divides each band signal into signals of respective bands. The feature is that different encodings are applied according to the characteristics.

【0008】ここで、上記帯域分割は、広帯域の入力音
声信号を電話帯域の信号と電話帯域よりも高域側の信号
とに少なくとも分割することが挙げられる。
Here, the band division may be performed by at least dividing an input voice signal of a wide band into a signal of a telephone band and a signal of a higher band than the telephone band.

【0009】また、上記帯域分割された帯域の低域側の
信号に対して短期予測を行って短期予測残差を求め、求
められた短期予測残差に対して長期予測を行い、求めら
れた長期予測残差を直交変換することが挙げられる。
Further, a short-term prediction is performed on the signal on the low frequency side of the band obtained by the band division to obtain a short-term prediction residual, and a long-term prediction is performed on the obtained short-term prediction residual. An example is orthogonal transformation of long-term prediction residuals.

【0010】[0010]

【発明の実施の形態】以下、本発明に係る好ましい実施
の形態について説明する。先ず、図1は、本発明に係る
信号符号化方法の実施の形態が適用された広帯域音声信
号の符号化装置を示している。
BEST MODE FOR CARRYING OUT THE INVENTION Preferred embodiments of the present invention will be described below. First, FIG. 1 shows a wideband speech signal coding apparatus to which an embodiment of a signal coding method according to the present invention is applied.

【0011】ここで、図1の符号化装置の基本的な考え
方は、入力信号を複数の帯域に分割して、分割された帯
域毎の信号に対してそれぞれの帯域の信号特性に応じた
互いに異なる符号化を施すものである。具体的には、広
帯域の入力音声信号を複数の帯域、例えば音声として充
分な明瞭度を得られる電話帯域と、この電話帯域よりも
高域側の帯域とに分割している。低域側の電話帯域の信
号については、LPC(線形予測符号化)分析等の短期
予測の後にピッチ予測等の長期予測を行った上で直交変
換を施し、この変換後の係数を聴覚重み付けベクトル量
子化しており、また、LPC係数等の短期予測係数を表
現するパラメータ、ピッチやピッチゲイン等の長期予測
に関連した情報についても量子化している。電話帯域よ
りも高域の信号については、短期予測したものをそのま
ま時間軸上でベクトル量子化している。
Here, the basic idea of the encoding apparatus of FIG. 1 is that an input signal is divided into a plurality of bands, and the signals for each divided band are mutually dependent on the signal characteristics of each band. Different encoding is applied. Specifically, the wideband input voice signal is divided into a plurality of bands, for example, a telephone band in which sufficient intelligibility as voice is obtained and a band higher than the telephone band. For signals in the low-frequency side telephone band, short-term prediction such as LPC (linear predictive coding) analysis is performed, and then long-term prediction such as pitch prediction is performed, and then orthogonal transformation is performed. Quantization is also performed, and parameters that represent short-term prediction coefficients such as LPC coefficients, and information related to long-term prediction such as pitch and pitch gain are also quantized. For signals in the higher band than the telephone band, short-term predictions are vector-quantized as they are on the time axis.

【0012】上記直交変換としてMDCT(モディファ
イド離散コサイン変換)を用い、このときの変換長を短
くすることでベクトル量子化の重み付けを容易に行い、
さらにこの変換長を2N 、すなわち2のべき乗の大きさ
にすることでFFT(高速フーリエ変換)を用いた高速
化を可能としている。また、上記短期予測の残差を算出
し、直交変換係数をベクトル量子化する際の重み算出す
るためのLPC係数は(ポストフィルタについても)、
現フレーム内で求められたものと過去のフレームで求め
られたものとを滑らかに補間したものを用い、各分析サ
ブフレームで最適なLPC係数を用いている。また、上
記長期予測を行う場合、1フレームに複数回の予測又は
補間を行い、それらのピッチラグ、ピッチゲインをその
まま、あるいは差分をとった上で量子化し、あるいは補
間方法を示すフラグを伝送している。さらに、予測回数
(頻度)の増加に対して、分散の小さくなる予測残差に
ついて、それらの直交変換係数の差を量子化するマルチ
ステージ(多段)ベクトル量子化を行うか、あるいは分
割された帯域の内、ある1つの帯域に対するパラメータ
のみを用い、1つのエンコードビットストリームの全体
あるいは一部分により、レートの異なる複数のデコード
動作を可能としている。
MDCT (Modified Discrete Cosine Transform) is used as the orthogonal transform, and the vector quantization is easily weighted by shortening the transform length at this time.
Furthermore, by setting this transform length to 2 N , that is, a power of 2, it is possible to speed up using FFT (Fast Fourier Transform). Further, the LPC coefficient (also for the post filter) for calculating the residual of the above short-term prediction and calculating the weight when vector-quantizing the orthogonal transform coefficient is
The optimum LPC coefficient is used in each analysis subframe by using a smooth interpolation of the one obtained in the current frame and the one obtained in the past frame. Further, in the case of performing the long-term prediction, prediction or interpolation is performed a plurality of times in one frame, and the pitch lag and pitch gain are quantized as they are, or the difference is taken, or a flag indicating an interpolation method is transmitted. There is. Furthermore, with respect to the prediction residual whose variance decreases as the number of predictions (frequency) increases, multi-stage vector quantization is performed to quantize the difference between the orthogonal transform coefficients, or the divided band is divided. Among these, only a parameter for one certain band is used, and a plurality of decoding operations with different rates are possible by the whole or a part of one encoded bit stream.

【0013】以下、図1を参照しながら説明する。図1
の入力端子101には、例えばサンプリング周波数Fs
が16kHzで0〜8KHz程度の広帯域音声信号が供給さ
れている。この入力端子101からの広帯域音声信号
は、ローパスフィルタ102及び減算器106により低
域側、例えば0〜3.8kHz程度のいわゆる電話帯域の
信号と、高域側、例えば3.8kHz〜8kHzの信号とに
帯域分割される。低域側は、サンプリング周波数変換器
103により、サンプリング定理を満たす範囲で間引く
ことにより、例えば8kHzサンプリングの信号にしてお
く。
A description will be given below with reference to FIG. FIG.
Of the sampling frequency Fs
A wide band audio signal of about 0 to 8 kHz at 16 kHz is supplied. The wideband audio signal from the input terminal 101 is a low-pass filter 102 and a subtractor 106 for a low-frequency side signal, for example, a so-called telephone band signal of about 0 to 3.8 kHz and a high-frequency side signal, for example, a signal of 3.8 kHz to 8 kHz. Band divided into and. The low frequency side is thinned by the sampling frequency converter 103 within a range that satisfies the sampling theorem to be a signal of 8 kHz sampling, for example.

【0014】低域側での処理としては、先ず、LPC分
析・量子化部130により、例えば1ブロック256サ
ンプル程度の分析長によりハミング窓かけをした上で、
10次程度のLPC係数、すなわちαパラメータを算出
し、LPC逆フィルタ111によりLPC残差を求めて
いる。このLPC分析の際には、分析の単位となる1ブ
ロック256サンプルの内の96サンプルを次のブロッ
クとオーバーラップさせることにより、フレーム間隔す
なわちフレームインターバルは160サンプルとなる。
このフレーム間隔は、8kHzサンプリングで20msec
になる。また、このLPC分析・量子化部130では、
LPC係数であるαパラメータをLSP(線スペクトル
対)パラメータに変換して量子化したものを伝送するよ
うにしている。
As the processing on the low frequency side, first, the LPC analysis / quantization unit 130 performs a Hamming window with an analysis length of, for example, about 256 samples per block.
The LPC coefficient of about 10th order, that is, the α parameter is calculated, and the LPC inverse filter 111 obtains the LPC residual. In this LPC analysis, 96 samples of one block of 256 samples, which is the unit of analysis, are overlapped with the next block, so that the frame interval, that is, the frame interval becomes 160 samples.
This frame interval is 20 msec at 8 kHz sampling
become. Further, in this LPC analysis / quantization unit 130,
The α parameter, which is an LPC coefficient, is converted into an LSP (line spectrum pair) parameter, and the quantized one is transmitted.

【0015】すなわち、LPC分析・量子化部130に
おいて、サンプリング周波数変換器103からの低域側
信号が入力されるLPC分析回路132は、入力信号波
形の256サンプル程度の長さを1ブロックとしてハミ
ング窓をかけて、自己相関法により線形予測係数、いわ
ゆるαパラメータを求めている。データ出力の単位とな
るフレーミングの間隔は、例えば160サンプルで20
msec である。
That is, in the LPC analysis / quantization unit 130, the LPC analysis circuit 132, to which the low-frequency side signal from the sampling frequency converter 103 is input, hums the length of about 256 samples of the input signal waveform as one block. Through a window, a linear prediction coefficient, a so-called α parameter, is obtained by the autocorrelation method. The framing interval, which is the unit of data output, is 20 for 160 samples, for example.
msec.

【0016】LPC分析回路132からのαパラメータ
は、α→LSP変換回路133に送られて、線スペクト
ル対(LSP)パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば10個、すなわち5対のLSPパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このLSPパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。
The α parameter from the LPC analysis circuit 132 is sent to the α → LSP conversion circuit 133 and converted into a line spectrum pair (LSP) parameter. This converts the α parameter obtained as the direct type filter coefficient into, for example, 10 pieces, that is, 5 pairs of LSP parameters. The conversion is performed using, for example, the Newton-Raphson method. The conversion to the LSP parameter is because it has better interpolation characteristics than the α parameter.

【0017】α→LSP変換回路133からのLSPパ
ラメータは、LSP量子化器134によりベクトル量子
化あるいはマトリクス量子化される。このとき、フレー
ム間差分をとってからベクトル量子化、あるいは、複数
フレーム分をまとめてマトリクス量子化してもよい。こ
こでは、20msec を1フレームとし、20msec 毎に
算出されるLSPパラメータを2フレーム分まとめてマ
トリクス量子化している。
The LSP parameter from the α → LSP conversion circuit 133 is vector-quantized or matrix-quantized by the LSP quantizer 134. At this time, vector quantization may be performed after obtaining the difference between frames, or matrix quantization may be performed on a plurality of frames at once. Here, 20 msec is taken as one frame, and LSP parameters calculated every 20 msec are collectively matrix-quantized for two frames.

【0018】このLSP量子化器134からの量子化出
力、すなわちLSPベクトル量子化のインデクスは、端
子131を介して取り出され、また量子化済みのLSP
ベクトルあるいは逆量子化出力は、LSP補間回路13
6に送られる。
The quantized output from the LSP quantizer 134, that is, the index of the LSP vector quantization, is taken out via the terminal 131 and is also the quantized LSP.
The vector or dequantized output is the LSP interpolation circuit 13
Sent to 6.

【0019】LSP補間回路136は、LSP量子化器
134で上記20msec 毎にベクトル量子化されたLS
Pのベクトルの前フレームと現フレームとの組を補間
し、後の処理で必要となるレートにするためのものであ
り、この例では、8倍のレートと5倍のレートにしてい
る。8倍レートでは、2.5msec 毎にLSPベクトル
が更新されるようにする。これは、残差波形を分析合成
処理すると、その合成波形のエンベロープは非常になだ
らかでスムーズな波形になるため、LPC係数が20m
sec 毎に急激に変化すると異音を発生することがあるか
らである。すなわち、2.5msec 毎にLPC係数が徐
々に変化してゆくようにすれば、このような異音の発生
を防ぐことができる。
The LSP interpolation circuit 136 is an LS that is vector-quantized by the LSP quantizer 134 every 20 msec.
This is for interpolating the set of the previous frame and the current frame of the vector of P to obtain the rate required for the subsequent processing. In this example, the rate is 8 times and the rate is 5 times. At the 8 times rate, the LSP vector is updated every 2.5 msec. This is because when the residual waveform is analyzed and synthesized, the envelope of the synthesized waveform becomes a very smooth and smooth waveform, so that the LPC coefficient is 20 m.
This is because an abnormal sound may be generated if it changes rapidly every sec. That is, if the LPC coefficient is gradually changed every 2.5 msec, the occurrence of such abnormal noise can be prevented.

【0020】このような補間が行われた2.5msec 毎
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路137により、
LSPパラメータを例えば10次程度の直接型フィルタ
の係数であるαパラメータに変換する。このLSP→α
変換回路137からの出力は、上記LPC残差を求める
ためのLPC逆フィルタ回路111に送られ、このLP
C逆フィルタ111では、2.5msec 毎に更新される
αパラメータにより逆フィルタリング処理を行って、滑
らかな出力を得るようにしている。
In order to execute the inverse filtering of the input voice using the LSP vector for every 2.5 msec which has been interpolated in this way, the LSP → α conversion circuit 137
The LSP parameter is converted into, for example, an α parameter which is a coefficient of a direct type filter of about 10th order. This LSP → α
The output from the conversion circuit 137 is sent to the LPC inverse filter circuit 111 for obtaining the LPC residual, and the LP
The C inverse filter 111 performs an inverse filtering process with the α parameter updated every 2.5 msec to obtain a smooth output.

【0021】また、LSP補間回路136で5倍レート
で補間された4msec 毎のLSP係数は、LSP→α変
換回路138に送られてαパラメータに変換され、MD
CT係数の量子化に使用する重み計算のためのVQ(ベ
クトル量子化)重み計算回路139に送られる。
Further, the LSP coefficient every 4 msec interpolated by the LSP interpolation circuit 136 at the rate of 5 is sent to the LSP → α conversion circuit 138 to be converted into an α parameter and MD.
It is sent to the VQ (vector quantization) weight calculation circuit 139 for weight calculation used for the quantization of the CT coefficient.

【0022】LPC逆フィルタ111からの出力は、長
期予測であるピッチ予測のためのピッチ逆フィルタ11
2及び122に送られる。
The output from the LPC inverse filter 111 is the pitch inverse filter 11 for pitch prediction which is a long-term prediction.
2 and 122.

【0023】次に、長期予測について説明する。長期予
測は、ピッチ分析により求められたピッチ周期あるいは
ピッチラグ分だけ時間軸上でずらした波形を元の波形か
ら減算してピッチ予測残差を求めることにより行ってお
り、この例では3点ピッチ予測によって行っている。な
お、ピッチラグとは、サンプリングされた時間軸データ
のピッチ周期に対応するサンプル数のことである。
Next, the long-term prediction will be described. The long-term prediction is performed by subtracting the waveform shifted on the time axis by the pitch period or pitch lag obtained by the pitch analysis from the original waveform to obtain a pitch prediction residual. In this example, three-point pitch prediction is performed. Has gone by. The pitch lag refers to the number of samples corresponding to the pitch cycle of the sampled time axis data.

【0024】すなわち、ピッチ分析回路115では1フ
レームに1回の割合、すなわち分析長が1フレームでピ
ッチ分析が行われ、ピッチ分析結果の内のピッチラグL
1 はピッチ逆フィルタ112及び出力端子142に送ら
れ、ピッチゲインはピッチゲインVQ(ベクトル量子
化)回路116に送られる。ピッチゲインVQ回路11
6では、上記3点予測に対応する3点でのピッチゲイン
がベクトル量子化され、コードブックインデクスg1
出力端子143より取り出され、代表値ベクトルあるい
は逆量子化出力がピッチ逆フィルタ115、減算器11
7、加算器127にそれぞれ送られる。ピッチ逆フィル
タ112は、上記ピッチ分析結果に基づいて3点ピッチ
予測されたピッチ予測残差を出力する。このピッチ予測
残差は、直交変換手段である例えばMDCT回路113
に送られ、MDCT処理された後、VQ(ベクトル量子
化)回路114により聴覚重み付けベクトル量子化され
る。このVQ回路114では、VQ重み計算回路139
からの出力により聴覚重み付けされたベクトル量子化が
施され、その出力であるインデクスIdxVq1は、出力端子
141より取り出される。
That is, in the pitch analysis circuit 115, the pitch analysis is performed once per frame, that is, the analysis length is 1 frame, and the pitch lag L in the pitch analysis results is obtained.
1 is sent to the pitch inverse filter 112 and the output terminal 142, and the pitch gain is sent to the pitch gain VQ (vector quantization) circuit 116. Pitch gain VQ circuit 11
In 6, the pitch gain at three points corresponding to the above three-point prediction is vector quantized, the codebook index g 1 is taken out from the output terminal 143, and the representative value vector or the dequantized output is subtracted from the pitch inverse filter 115 and subtracted. Bowl 11
7 and the adder 127, respectively. The pitch inverse filter 112 outputs a pitch prediction residual with three-point pitch prediction based on the pitch analysis result. This pitch prediction residual is, for example, the MDCT circuit 113 which is an orthogonal transform means.
And is subjected to MDCT processing and then subjected to auditory weighting vector quantization by a VQ (vector quantization) circuit 114. In this VQ circuit 114, the VQ weight calculation circuit 139
Is subjected to perceptually weighted vector quantization, and the output, index IdxVq 1, is taken out from the output terminal 141.

【0025】またこの例においては、予測精度を高める
ために、さらに別系統のピッチ予測系となるピッチ逆フ
ィルタ122、ピッチ分析回路124及びピッチゲイン
VQ回路126を設けている。すなわち、上記各ピッチ
分析中心の中間位置にも分析中心を置くようにして、ピ
ッチ分析回路125により1/2フレーム周期で分析を
行うようにしている。ピッチ分析回路125からのピッ
チラグL2 はピッチ逆フィルタ122及び出力端子14
5に、ピッチゲインはピッチゲインVQ(ベクトル量子
化)回路126にそれぞれ送られる。ピッチゲインVQ
回路126では、3点のピッチゲインベクトルをベクト
ル量子化して量子化出力であるピッチゲインのインデク
スg2 を出力端子144に送り、その代表ベクトルある
いは逆量子化出力を減算器117に送っている。ここ
で、元のフレーム周期の分析中心の位置でのピッチゲイ
ンは、ピッチゲインVQ回路116からのピッチゲイン
に近い値と考えられるから、この位置でのピッチゲイン
については、ピッチゲインVQ回路116、126から
の各逆量子化出力の差を減算器117でとって、これを
ピッチゲインVQ回路118でベクトル量子化して得ら
れるピッチゲイン差分のインデクスg1dを出力端子14
6に送っている。このピッチゲイン差分の代表ベクトル
あるいは逆量子化出力を、加算器127に送り、ピッチ
ゲインVQ回路126からの代表ベクトルあるいは逆量
子化出力と加算したものをピッチゲインとしてピッチ逆
フィルタ122に送っている。なお、出力端子143か
ら得られるピッチゲインのインデクスg2 は、上記中間
位置でのピッチゲインのインデクスである。ピッチ逆フ
ィルタ122からのピッチ予測残差は、MDCT回路1
23でMDCT処理され、これが減算器128に送られ
て、VQ(ベクトル量子化)回路114からの代表ベク
トルあるいは逆量子化出力が減算され、その差分がVQ
回路124に送られてベクトル量子化され、インデクス
IdxVq2が出力端子147に送られる。このVQ回路は、
VQ重み計算回路139からの出力により聴覚重み付き
のベクトル量子化を施す。
Further, in this example, a pitch inverse filter 122, a pitch analysis circuit 124, and a pitch gain VQ circuit 126, which are a separate pitch prediction system, are further provided in order to improve the prediction accuracy. That is, the analysis center is placed at an intermediate position between the pitch analysis centers, and the pitch analysis circuit 125 performs the analysis at 1/2 frame period. The pitch lag L 2 from the pitch analysis circuit 125 is the pitch inverse filter 122 and the output terminal 14.
5, the pitch gain is sent to the pitch gain VQ (vector quantization) circuit 126, respectively. Pitch gain VQ
The circuit 126 vector-quantizes the pitch gain vector at the three points, sends the pitch gain index g 2 which is a quantized output to the output terminal 144, and sends the representative vector or the inverse quantized output to the subtractor 117. Here, the pitch gain at the position of the analysis center of the original frame period is considered to be a value close to the pitch gain from the pitch gain VQ circuit 116. Therefore, regarding the pitch gain at this position, the pitch gain VQ circuit 116, The subtractor 117 takes the difference between the respective inverse quantized outputs, and the pitch gain VQ circuit 118 vector-quantizes the difference to obtain the pitch gain difference index g 1d.
I am sending to 6. The representative vector of the pitch gain difference or the inverse quantized output is sent to the adder 127, and the sum of the representative vector or the inverse quantized output from the pitch gain VQ circuit 126 is sent to the pitch inverse filter 122 as the pitch gain. . The pitch gain index g 2 obtained from the output terminal 143 is the pitch gain index at the intermediate position. The pitch prediction residual from the pitch inverse filter 122 is the MDCT circuit 1
23, MDCT processing is performed, and this is sent to the subtractor 128, and the representative vector or dequantized output from the VQ (vector quantization) circuit 114 is subtracted, and the difference is VQ.
It is sent to the circuit 124, vector-quantized, and indexed.
IdxVq2 is sent to the output terminal 147. This VQ circuit
The output from the VQ weight calculation circuit 139 performs vector quantization with auditory weighting.

【0026】次に、高域側の信号処理について説明す
る。
Next, the signal processing on the high frequency side will be described.

【0027】この高域側の信号処理は、基本的に、入力
信号を帯域分割し、分割された少なくとも1つの高域側
の信号を低域側に周波数変換し、低域側に変換された信
号のサンプリングレートを低下させて、サンプリングレ
ートが低下させられた信号を予測符号化するようにして
いる。
In the signal processing on the high frequency side, basically, the input signal is band-divided, at least one of the divided high-frequency side signals is frequency-converted to the low frequency side, and then converted to the low frequency side. The sampling rate of the signal is reduced, and the signal with the reduced sampling rate is predictively encoded.

【0028】図1の入力端子101に供給された広帯域
信号が減算器106に入力され、この広帯域信号から、
LPF(ローパスフィルタ)102により取り出された
低域側の信号、例えば0〜3.8kHz程度のいわゆる電
話帯域の信号、が差し引かれる。これによって、減算器
106からは、高域側の信号、例えば3.8kHz〜8k
Hzの信号が出力される。ただし、現実のLPF102の
特性等により、減算器106からの出力には、3.8k
Hz以下の成分もわずかながら残っており、高域側の信号
処理は、3.5kHz以上、あるいは3.4kHz以上の成
分に対して行うようにしている。
The wideband signal supplied to the input terminal 101 of FIG. 1 is input to the subtractor 106, and from this wideband signal,
A low-frequency side signal extracted by the LPF (low-pass filter) 102, for example, a so-called telephone band signal of about 0 to 3.8 kHz is subtracted. As a result, from the subtractor 106, a high frequency side signal, for example, 3.8 kHz to 8 kHz
The Hz signal is output. However, due to the characteristics of the actual LPF 102, the output from the subtractor 106 is 3.8 k
A small amount of components below Hz remains, and signal processing on the high frequency side is performed on components above 3.5 kHz or above 3.4 kHz.

【0029】この高域側の信号は、減算器106からの
例えば3.5kHz〜8kHzの4.5kHzの周波数幅を持
つが、ダウンサンプリング等により周波数を低域側にシ
フトあるいは変換して信号処理を行うため、例えば4k
Hz幅まで狭めることが必要とされる。ここで、後の低域
側との合成を考慮し、3.5kHz〜4kHz付近は聴感上
敏感であるので、ここをカットせずに、音声信号の性質
として成分あるいはパワーも少なく聴感上影響の少ない
7.5kHz〜8kHzの0.5kHz分をLPFあるいはB
PF(バンドパスフィルタ)107によりカットする。
The high-frequency side signal has a frequency width of 4.5 kHz from 3.5 kHz to 8 kHz from the subtractor 106, but the frequency is shifted or converted to the low-frequency side by down-sampling or the like to perform signal processing. For example, 4k
It is necessary to narrow down to the Hz width. Here, in consideration of the synthesis with the low frequency side after that, since the region around 3.5 kHz to 4 kHz is sensitive to hearing, the component or power is small as the property of the audio signal without cutting it and the influence on the hearing is not affected. LPF or B for a small amount of 0.5 kHz from 7.5 kHz to 8 kHz
It is cut by a PF (band pass filter) 107.

【0030】次に、低域側への周波数変換を行うが、こ
の例では、直交変換手段、例えばFFT(高速フーリエ
変換)回路161を用いて周波数軸上のデータに変換
し、この周波数軸上のデータを周波数シフト回路162
によりシフトした後、逆直交変換手段である逆FFT回
路164により逆FFT処理することにより実現してい
る。
Next, frequency conversion to the low frequency side is performed. In this example, orthogonal conversion means, for example, FFT (Fast Fourier Transform) circuit 161, is used to convert to data on the frequency axis, and on this frequency axis. Data of the frequency shift circuit 162
After being shifted by, the inverse FFT circuit 164, which is an inverse orthogonal transform means, performs inverse FFT processing.

【0031】逆FFT回路164からは、入力信号の高
域側の例えば3.5kHz〜7.5kHzの信号が、0〜4
kHzの低域側に変換された信号が取り出される。この信
号はサンプリング周波数が8kHzで表現できるので、ダ
ウンサンプリング回路164によりダウンサンプリング
してサンプリング周波数8kHzの3.5kHz〜7.5k
Hzの帯域の信号とする。このダウンサンプリング回路1
64からの出力は、LPC逆フィルタ171及びLPC
分析・量子化部180のLPC分析回路182にそれぞ
れ送られる。
From the inverse FFT circuit 164, signals of, for example, 3.5 kHz to 7.5 kHz on the high frequency side of the input signal are output from 0 to 4.
The signal converted to the low frequency side of kHz is extracted. Since this signal can be expressed at a sampling frequency of 8 kHz, it is down-sampled by the down-sampling circuit 164 to obtain a sampling frequency of 8 kHz from 3.5 kHz to 7.5 kHz.
The signal should be in the Hz band. This down sampling circuit 1
The output from 64 is the LPC inverse filter 171 and the LPC.
It is sent to the LPC analysis circuit 182 of the analysis / quantization unit 180.

【0032】LPC分析・量子化部180は、上記低域
側のLPC分析・量子化部130とほぼ同様な構成を有
しているため、簡単に説明する。
Since the LPC analysis / quantization unit 180 has a configuration similar to that of the LPC analysis / quantization unit 130 on the low frequency side, it will be briefly described.

【0033】すなわち、LPC分析・量子化部180に
おいて、ダウンサンプリング回路164からの低域変換
された信号が入力されるLPC分析回路182は、入力
信号波形の256サンプル程度の長さを1ブロックとし
てハミング窓をかけて、例えば自己相関法により線形予
測係数、いわゆるαパラメータを求めている。LPC分
析回路182からのαパラメータは、α→LSP変換回
路183に送られて、線スペクトル対(LSP)パラメ
ータに変換される。α→LSP変換回路183からのL
SPパラメータは、LSP量子化器184によりベクト
ル量子化あるいはマトリクス量子化される。このとき、
フレーム間差分をとってからベクトル量子化してもよ
い。あるいは、複数フレーム分をまとめてマトリクス量
子化してもよい。ここでは、20msec を1フレームと
し、20msec 毎に算出されるLSPパラメータをベク
トル量子化している。
That is, in the LPC analysis / quantization unit 180, the LPC analysis circuit 182 to which the low-frequency-converted signal from the downsampling circuit 164 is input, has a length of about 256 samples of the input signal waveform as one block. A linear prediction coefficient, so-called α parameter, is obtained by, for example, an autocorrelation method by applying a Hamming window. The α parameter from the LPC analysis circuit 182 is sent to the α → LSP conversion circuit 183 and converted into a line spectrum pair (LSP) parameter. L from the α → LSP conversion circuit 183
The SP parameters are vector-quantized or matrix-quantized by the LSP quantizer 184. At this time,
Vector quantization may be performed after taking the difference between frames. Alternatively, a plurality of frames may be collectively subjected to matrix quantization. Here, 20 msec is set as one frame, and LSP parameters calculated every 20 msec are vector-quantized.

【0034】このLSP量子化器184からの量子化出
力、すなわち高域側信号のLSPベクトル量子化のイン
デクスLSPidxH は、端子181を介して取り出され、ま
た量子化済みのLSPベクトルあるいは逆量子化出力
は、LSP補間回路186に送られる。
The quantized output from the LSP quantizer 184, that is, the LSP vector quantization index LSPidx H of the high frequency side signal is extracted via the terminal 181, and the quantized LSP vector or dequantized The output is sent to the LSP interpolation circuit 186.

【0035】LSP補間回路186は、LSP量子化器
184で上記20msec 毎にベクトル量子化されたLS
Pのベクトルの前フレームと現フレームとの組を補間
し、後の処理で必要となるレートにするためのものであ
り、この例では、4倍のレートにしている。
The LSP interpolation circuit 186 is an LS that has been vector quantized by the LSP quantizer 184 every 20 msec.
This is for interpolating the set of the previous frame and the current frame of the vector of P to obtain the rate required for the subsequent processing, and in this example, the rate is quadrupled.

【0036】このような補間が行われた5msec 毎のL
SPベクトルを用いて入力音声の逆フィルタリングを実
行するために、LSP→α変換回路187により、LS
PパラメータをLPC合成フィルタの係数であるαパラ
メータに変換する。このLSP→α変換回路187から
の出力は、上記LPC残差を求めるためのLPC逆フィ
ルタ回路171に送られ、このLPC逆フィルタ171
では、5msec 毎に更新されるαパラメータにより逆フ
ィルタリング処理を行って、滑らかな出力を得るように
している。
L for each 5 msec in which such interpolation is performed
In order to execute the inverse filtering of the input voice using the SP vector, the LSP → α conversion circuit 187 causes the LS
The P parameter is converted into an α parameter which is a coefficient of the LPC synthesis filter. The output from the LSP → α conversion circuit 187 is sent to the LPC inverse filter circuit 171 for obtaining the LPC residual, and the LPC inverse filter 171 is supplied.
Then, the inverse filtering process is performed with the α parameter updated every 5 msec to obtain a smooth output.

【0037】LPC逆フィルタ171からのLPC予測
残差出力は、LPC残差VQ(ベクトル量子化)回路1
72に送られてベクトル量子化され、その出力であるL
PC残差のインデクスLPCidxが出力端子173より取り
出される。
The LPC prediction residual output from the LPC inverse filter 171 is the LPC residual VQ (vector quantization) circuit 1
It is sent to 72, vector-quantized, and its output is L
The PC residual index LPCidx is taken out from the output terminal 173.

【0038】以上のような構成の信号符号化装置におい
て、低域側の一部構成を独立したコーデックの符号化装
置としたり、あるいは出力されるビットストリームの全
体と一部とを切り換えることにより、ビットレートの異
なる信号伝送やデコードを可能としている。
In the signal coding apparatus having the above-described configuration, by partially setting the low-frequency side configuration as a coding apparatus of an independent codec, or by switching the whole and a part of the output bit stream, It enables signal transmission and decoding with different bit rates.

【0039】すなわち、図1の構成の各出力端子からの
全てのデータを伝送するとき、伝送ビットレートは16
kbps (kビット/秒)となり、一部端子からのデータ
を伝送することにより6kbps の伝送ビットレートとな
る。
That is, when transmitting all data from each output terminal of the configuration of FIG. 1, the transmission bit rate is 16
It becomes kbps (k bits / second), and the transmission bit rate becomes 6 kbps by transmitting data from some terminals.

【0040】あるいは、図1の全ての端子からの16k
bps の全データを伝送、すなわち送信あるいは記録し、
受信あるいは再生側で16kbps の全データをデコード
することにより、16kbps の高品質の音声信号が得ら
れ、6kbps のデータをデコードすることにより、簡単
なデコーダで6kbps に応じた品質の音声信号が得られ
る。
Alternatively, 16k from all terminals in FIG.
transmit all data in bps, ie send or record,
By decoding all 16 kbps data on the receiving or playback side, a high quality 16 kbps voice signal can be obtained. By decoding 6 kbps data, a simple decoder can produce a 6 kbps quality voice signal. .

【0041】ここで、図1の構成においては、出力端子
131、141〜143からの出力データが6kbps の
データに相当し、さらに出力端子144〜147、17
3、181からの出力データを加えることで、16kbp
s の全データが得られる。
Here, in the configuration of FIG. 1, the output data from the output terminals 131, 141 to 143 corresponds to the data of 6 kbps, and the output terminals 144 to 147, 17 are further provided.
16 kbps by adding output data from 3 and 181
All data of s are obtained.

【0042】次に、上記図1の信号符号化装置に対応す
る信号復号化装置について、図2を参照しながら説明す
る。
Next, a signal decoding device corresponding to the signal coding device of FIG. 1 will be described with reference to FIG.

【0043】この図2において、入力端子200には、
上記図1の出力端子131からの出力に相当するLSP
のベクトル量子化出力、いわゆるコードブックのインデ
クスLSPidxが供給されている。
In FIG. 2, the input terminal 200 has
LSP corresponding to the output from the output terminal 131 of FIG.
The vector quantized output of, the so-called codebook index LSPidx, is supplied.

【0044】このLSPのインデクスLSPidxは、LPC
パラメータ再生部240のLSPの逆VQ(逆ベクトル
量子化)回路241に送られてLSP(線スペクトル
対)データに逆ベクトル量子化あるいは逆マトリクス量
子化され、LSP補間回路242に送られてLSPの補
間処理が施された後、LSP→α変換回路243でLP
C(線形予測符号)係数であるαパラメータに変換さ
れ、このαパラメータがLPC合成フィルタ215、2
25及びピッチスペクトラルポストフィルタ216、2
26に送られる。
The index LSPidx of this LSP is LPC
It is sent to the inverse VQ (inverse vector quantization) circuit 241 of the LSP of the parameter reproducing unit 240 to be subjected to inverse vector quantization or inverse matrix quantization to LSP (line spectrum pair) data, and sent to the LSP interpolation circuit 242 to be sent to the LSP. After the interpolation processing is performed, LP is performed by the LSP → α conversion circuit 243.
The C parameter is converted into an α parameter which is a C (linear prediction code) coefficient, and the α parameter is converted into the LPC synthesis filters 215 and 2.
25 and pitch spectral post filters 216, 2
Sent to 26.

【0045】また、図4の入力端子201、202、2
03には、上記図1の各出力端子141、142、14
3からのMDCT係数のベクトル量子化のインデクスIs
xVq1、ピッチラグL1 、ピッチゲインg1 がそれぞれ供
給されている。
Further, the input terminals 201, 202, 2 of FIG.
03, the output terminals 141, 142, 14 of FIG.
Index Is of vector quantization of MDCT coefficients from 3
xVq 1 , pitch lag L 1 , and pitch gain g 1 are respectively supplied.

【0046】入力端子201からのMDCT係数のベク
トル量子化のインデクスIsxVq1は、逆VQ(逆ベクトル
量子化)回路211に供給されて逆ベクトル量子化さ
れ、逆MDCT回路212により逆MDCT処理された
後、重畳加算(オーバーラップアッド)回路213で重
畳加算され、ピッチ合成フィルタ214に送られる。ピ
ッチ合成回路214には、各入力端子202、203か
らのピッチラグL1 、ピッチゲインg1 が供給されてい
る。このピッチ合成回路214で、上記図1のピッチ逆
フィルタ112でのピッチ予測符号化の逆処理が施され
た後、LPC合成フィルタ215に送られ、LPC合成
処理が施される。このLPC合成された出力は、ピッチ
スペクトラルポストフィルタ216に送られて、ポスト
フィルタ処理が施され、出力端子219より6kbps の
ビットレートに対応する音声信号として取り出される。
The vector quantization index IsxVq 1 of the MDCT coefficient from the input terminal 201 is supplied to the inverse VQ (inverse vector quantization) circuit 211, inverse vector quantized, and inverse MDCT processed by the inverse MDCT circuit 212. After that, the signals are superposed and added by the superposition and addition (overlap add) circuit 213 and sent to the pitch synthesis filter 214. The pitch synthesizing circuit 214 is supplied with the pitch lag L 1 and the pitch gain g 1 from the respective input terminals 202 and 203. In the pitch synthesizing circuit 214, the inverse process of the pitch predictive coding in the pitch inverse filter 112 in FIG. The LPC-combined output is sent to the pitch spectral post filter 216, subjected to post filter processing, and taken out from the output terminal 219 as an audio signal corresponding to a bit rate of 6 kbps.

【0047】図4の入力端子204、205、206及
び207には、上記図1の各出力端子144、145、
146及び147からのMDCT係数のベクトル量子化
のピッチゲインg2 、ピッチラグL2 、インデクスIsxV
q2及びピッチゲインg1dがそれぞれ供給されている。
The input terminals 204, 205, 206 and 207 of FIG. 4 are respectively connected to the output terminals 144, 145 of FIG.
Pitch gain g 2 of vector quantization of MDCT coefficients from 146 and 147, pitch lag L 2 , index IsxV
q 2 and pitch gain g 1d are respectively supplied.

【0048】入力端子207からのMDCT係数のベク
トル量子化のインデクスIsxVq2は、逆VQ回路220に
供給されて逆ベクトル量子化され、加算器221に送ら
れて逆VQ回路211からの逆ベクトル量子化されたM
DCT係数と加算され、逆MDCT回路222により逆
MDCT処理された後、重畳加算(オーバーラップアッ
ド)回路223で重畳加算され、ピッチ合成フィルタ2
14に送られる。このピッチ合成フィルタ224には、
各入力端子202、204、205からのピッチラグL
1 、ピッチゲインg2 、ピッチラグL2 が供給されると
共に、入力端子203からのピッチゲインg1 と入力端
子206からのピッチゲインg1dとが加算器217で加
算されたものが供給されている。このピッチ合成フィル
タ224でピッチ残差の合成処理が施された後、LPC
合成フィルタ225に送られ、LPC合成処理が施され
る。このLPC合成された出力は、ピッチスペクトラル
ポストフィルタ226に送られて、ポストフィルタ処理
が施され、アップサンプリング回路227に送られてサ
ンプリング周波数が例えば8kHzから16kHzにアップ
サンプリングされた後、加算器228に送られる。
The vector quantization index IsxVq 2 of the MDCT coefficient from the input terminal 207 is supplied to the inverse VQ circuit 220, inverse vector quantized, and sent to the adder 221, and the inverse vector quantum from the inverse VQ circuit 211. M
After being added to the DCT coefficient and subjected to inverse MDCT processing by the inverse MDCT circuit 222, it is superimposed and added by the superposition and addition (overlap add) circuit 223, and the pitch synthesis filter 2
14 is sent. The pitch synthesis filter 224 has
Pitch lag L from each input terminal 202, 204, 205
1 , the pitch gain g 2 , and the pitch lag L 2 are supplied, and the sum of the pitch gain g 1 from the input terminal 203 and the pitch gain g 1d from the input terminal 206 in the adder 217 is supplied. . After the pitch residual synthesis processing is performed by the pitch synthesis filter 224, the LPC
It is sent to the synthesis filter 225 and subjected to LPC synthesis processing. The LPC synthesized output is sent to the pitch spectral post filter 226, subjected to post filter processing, sent to the upsampling circuit 227, and the sampling frequency is upsampled from 8 kHz to 16 kHz, for example, and then the adder 228 is added. Sent to.

【0049】さらに、入力端子207には、図1の出力
端子181からの高域側のLSPインデクスLSPidxH
供給されており、このLSPのインデクスLSPidxH は、
LPCパラメータ再生部245のLSPの逆VQ(逆ベ
クトル量子化)回路246に送られてLSPデータに逆
ベクトル量子化され、LSP補間回路247に送られて
LSPの補間処理が施された後、LSP→α変換回路2
48でLPC係数のαパラメータに変換され、このαパ
ラメータが高域側LPC合成フィルタ232に送られ
る。
Further, the LSP index LSPidx H on the high frequency side is supplied from the output terminal 181 of FIG. 1 to the input terminal 207, and the index LSPidx H of this LSP is
After being sent to the LSP inverse VQ (inverse vector quantization) circuit 246 of the LPC parameter reproducing unit 245 and inverse vector quantized into LSP data, and sent to the LSP interpolation circuit 247 to be subjected to the LSP interpolation processing, → α conversion circuit 2
At 48, it is converted into an α parameter of the LPC coefficient, and this α parameter is sent to the high frequency side LPC synthesis filter 232.

【0050】入力端子209には、図1の出力端子17
3からの高域側のLPC残差のベクトル量子化出力であ
るインデクスLPCidxが供給されて、高域逆VQ回路23
1で逆ベクトル量子化され、高域側LPC合成フィルタ
232に送られる。高域側LPC合成フィルタ232で
LPC合成処理された出力は、アップサンプリング回路
233でサンプリング周波数が例えば8kHzから16k
Hzにアップサンプリングされた後、直交変換手段である
FFT回路234で高速フーリエ変換されて周波数軸上
の信号に変換され、周波数シフト回路235で高域側に
周波数シフト処理され、逆FFT回路236で逆高速フ
ーリエ変換されることにより、高域側の時間軸信号とさ
れ、重畳加算回路237を介して加算器228に送られ
る。
The input terminal 209 has an output terminal 17 shown in FIG.
The index LPCidx, which is the vector quantization output of the LPC residual on the high frequency side from 3, is supplied to the high frequency inverse VQ circuit 23.
Inverse vector quantization is performed at 1, and the result is sent to the high frequency side LPC synthesis filter 232. The output subjected to the LPC synthesis processing by the high frequency side LPC synthesis filter 232 has a sampling frequency of, for example, 8 kHz to 16 kHz in the upsampling circuit 233.
After being up-sampled to Hz, the FFT circuit 234, which is an orthogonal transform means, performs a fast Fourier transform to convert the signal into a signal on the frequency axis, a frequency shift circuit 235 performs frequency shift processing to the high frequency side, and an inverse FFT circuit 236. By performing the inverse fast Fourier transform, it becomes a time domain signal on the high frequency side, and is sent to the adder 228 via the superposition addition circuit 237.

【0051】加算器228では、上記アップサンプリン
グ回路227からの信号と加算され、出力端子229よ
り16kbps のビットレートの一部に対応する音声信号
として取り出される。全体としての16kbps のビット
レートの信号は、上記出力端子219からの信号も合成
されることにより取り出される。
In the adder 228, the signal from the upsampling circuit 227 is added, and the added signal is taken out from the output terminal 229 as an audio signal corresponding to a part of the bit rate of 16 kbps. A signal having a bit rate of 16 kbps as a whole is taken out by combining the signal from the output terminal 219.

【0052】ここで、スケーラビリティについて説明す
る。上記図1、図2の構成においては、6kbps と16
kbps との2通りの伝送ビットレートをほぼ同様な符号
化復号化方式で実現しており、16kbps のビットスト
リーム内に6kbps のビットストリームを完全に包含す
るスケーラビリティを実現しているが、さらに2kbps
のような極端にビットレートの異なる符号化復号化を行
う場合には、このような完全な包含関係を得るのは難し
い。
Scalability will now be described. In the configurations shown in FIGS. 1 and 2, 6 kbps and 16
Two kinds of transmission bit rates of kbps are realized by almost the same encoding / decoding method, and the scalability of completely enclosing a bit stream of 6 kbps in a bit stream of 16 kbps is realized.
It is difficult to obtain such a perfect inclusion relationship when performing encoding and decoding with extremely different bit rates such as.

【0053】ここで、同一の符号化復号化方式を適用で
きない場合であっても、最大限に共有関係を持ちながら
スケーラビリティを持たせることが好ましい。
Here, even when the same encoding / decoding method cannot be applied, it is preferable to have scalability while having a maximum sharing relationship.

【0054】このため、図3に示すような構成の符号化
装置によって2kbps の符号化を行い、図1の構成との
間に最大限の共有部分あるいは共有データを持たせ、全
体として16kbps のビットストリームで、この内16
kbps 全てを使用する場合と、6kbps を使用する場合
と、2kbps を移用する場合とを、それぞれ用途に応じ
て使い分けるようにしている。
For this reason, the coding apparatus having the structure shown in FIG. 3 performs coding at 2 kbps to have the maximum shared portion or shared data with the structure shown in FIG. 16 of these in the stream
The case of using all kbps, the case of using 6 kbps, and the case of transferring 2 kbps are properly used according to the intended use.

【0055】なお、厳密には、後述するように、2kbp
s では2kbps の情報を全て使用するが、6kbps のモ
ードでは、符号化単位となるフレームが有声音(V)の
とき6kbps 、無声音(UV)のとき5.65kbps で
あり、また16kbps のモードでは、フレームが有声音
(V)のとき15.2kbps 、無声音(UV)のとき1
4.85kbps である。
Strictly speaking, as will be described later, 2 kbps
s uses all 2 kbps information, but in the 6 kbps mode, it is 6 kbps when the frame to be coded is voiced (V), 5.65 kbps when unvoiced (UV), and 16 kbps in the 16 kbps mode. 15.2 kbps when frame is voiced (V), 1 when unvoiced (UV)
It is 4.85 kbps.

【0056】ここで、図3の2kbps の符号化装置の構
成及び動作を説明する。
The configuration and operation of the 2 kbps coding device shown in FIG. 3 will be described.

【0057】図3に示す符号化装置の基本的な考え方
は、入力音声信号の短期予測残差例えばLPC(線形予
測符号化)残差を求めてサイン波分析(sinusoidal ana
lysis)符号化、例えばハーモニックコーディング(har
monic coding )を行う第1の符号化部310と、入力
音声信号に対して位相伝送を行う波形符号化により符号
化する第2の符号化部320とを有し、入力信号の有声
音(V:Voiced)の部分の符号化に第1の符号化部31
0を用い、入力信号の無声音(UV:Unvoiced)の部分
の符号化には第2の符号化部320を用いるようにする
ことである。
The basic idea of the coding apparatus shown in FIG. 3 is to obtain a short-term prediction residual of an input speech signal, for example, an LPC (linear prediction coding) residual, and perform a sine wave analysis (sinusoidal analysis).
lysis) coding, eg harmonic coding (har
monic coding) and a second coding section 320 that performs coding by waveform coding that performs phase transmission on the input speech signal. : Voiced) portion is encoded by the first encoding unit 31.
0 is used, and the second encoding unit 320 is used for encoding the unvoiced sound (UV: Unvoiced) portion of the input signal.

【0058】上記第1の符号化部310には、例えばL
PC残差をハーモニック符号化やマルチバンド励起(M
BE)符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第2の符号化部320には、例えば合
成による分析法を用いて最適ベクトルのクローズドルー
プサーチによるベクトル量子化を用いた符号励起線形予
測(CELP)符号化の構成が用いられる。
The first encoding unit 310 has, for example, L
Harmonic coding and multi-band excitation (M
A configuration for performing sine wave analysis encoding such as BE) encoding is used. For the second encoding unit 320, for example, a configuration of code excitation linear prediction (CELP) encoding using vector quantization by closed loop search of an optimum vector using an analysis method by synthesis is used.

【0059】図3の例では、入力端子301に供給され
た音声信号が、第1の符号化部310のLPC逆フィル
タ311及びLPC分析・量子化部313に送られてい
る。LPC分析・量子化部313から得られたLPC係
数あるいはいわゆるαパラメータは、LPC逆フィルタ
311に送られて、このLPC逆フィルタ311により
入力音声信号の線形予測残差(LPC残差)が取り出さ
れる。また、LPC分析・量子化部313からは、後述
するようにLSP(線スペクトル対)の量子化出力が取
り出され、これが出力端子302に送られる。LPC逆
フィルタ311からのLPC残差は、サイン波分析符号
化部314に送られる。サイン波分析符号化部314で
は、ピッチ検出やスペクトルエンベロープ振幅計算が行
われると共に、V(有声音)/UV(無声音)判定部3
15によりV/UVの判定が行われる。サイン波分析符
号化部314からのスペクトルエンベロープ振幅データ
がベクトル量子化部316に送られる。スペクトルエン
ベロープのベクトル量子化出力としてのベクトル量子化
部316からのコードブックインデクスは、スイッチ3
17を介して出力端子303に送られ、サイン波分析符
号化部314からの出力は、スイッチ318を介して出
力端子304に送られる。また、V/UV判定部315
からのV/UV判定出力は、出力端子305に送られる
と共に、スイッチ317、318の制御信号として送ら
れており、上述した有声音(V)のとき上記インデクス
及びピッチが選択されて各出力端子303及び304か
らそれぞれ取り出される。
In the example of FIG. 3, the audio signal supplied to the input terminal 301 is sent to the LPC inverse filter 311 and the LPC analysis / quantization unit 313 of the first encoding unit 310. The LPC coefficient or the so-called α parameter obtained from the LPC analysis / quantization unit 313 is sent to the LPC inverse filter 311, and the LPC inverse filter 311 extracts a linear prediction residual (LPC residual) of the input speech signal. . The LPC analysis / quantization unit 313 extracts a quantized output of an LSP (line spectrum pair) as described later, and sends this to the output terminal 302. The LPC residual from the LPC inverse filter 311 is sent to the sine wave analysis coding unit 314. In the sine wave analysis coding unit 314, pitch detection and spectrum envelope amplitude calculation are performed, and the V (voiced sound) / UV (unvoiced sound) determination unit 3 is performed.
15 is used to determine V / UV. The spectral envelope amplitude data from the sine wave analysis coding unit 314 is sent to the vector quantization unit 316. The codebook index from the vector quantization unit 316 as the vector quantization output of the spectrum envelope is the switch 3
The output from the sine wave analysis coding unit 314 is sent to the output terminal 303 via the switch 17, and the output from the sine wave analysis coding unit 314 is sent to the output terminal 304 via the switch 318. In addition, the V / UV determination unit 315
V / UV judgment output from the output terminal 305 is sent to the output terminal 305 and is also sent as a control signal for the switches 317 and 318. When the voiced sound (V) is used, the index and pitch are selected and the output terminals are output. From 303 and 304 respectively.

【0060】図3の第2の符号化部320は、この例で
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳321からの出力を、重み付きの合成フ
ィルタ322により合成処理し、得られた重み付き音声
を減算器323に送り、入力端子301に供給された音
声信号を聴覚重み付けフィルタ325を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路32
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳321でサーチするような、合成に
よる分析(Analysis by Synthesis )法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このCELP符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳32
1からのUVデータとしてのコードブックインデクス
は、上記V/UV判定部315からのV/UV判定結果
が無声音(UV)のときオンとなるスイッチ327を介
して、出力端子307より取り出される。
The second coding section 320 of FIG. 3 has a CELP (code excitation linear prediction) coding configuration in this example, and outputs the output from the random codebook 321 by the weighted synthesis filter 322. The weighted voice obtained by the synthesis processing is sent to the subtractor 323, the voice signal supplied to the input terminal 301 is taken out as an error from the voice obtained through the auditory weighting filter 325, and this error is calculated by the distance calculation circuit. 32
4, the distance calculation is performed, and a vector that minimizes the error is searched by the noise codebook 321. A time-axis waveform using a closed loop search using an analysis by synthesis method is used. Vector quantization is performed. This CELP coding is used for coding the unvoiced sound portion as described above, and the noise codebook 32 is used.
The codebook index as the UV data from 1 is taken out from the output terminal 307 via the switch 327 that is turned on when the V / UV determination result from the V / UV determination unit 315 is unvoiced (UV).

【0061】このような符号化装置のLPC分析・量子
化部313が図1のLPC分析・量子化部130の一部
として共用でき、端子302からの出力がそのまま図1
の出力端子131からの出力として使用できる。また、
サイン波分析符号化部314により得られるピッチデー
タの一部が図1のピッチ分析回路115からの出力とし
て使用でき、このピッチ分析回路115をサイン波分析
符号化部314内のピッチ出力部分と共用することも可
能である。
The LPC analysis / quantization unit 313 of such an encoding device can be shared as a part of the LPC analysis / quantization unit 130 of FIG. 1, and the output from the terminal 302 is as it is.
Can be used as an output from the output terminal 131. Also,
A part of the pitch data obtained by the sine wave analysis coding unit 314 can be used as an output from the pitch analysis circuit 115 of FIG. 1, and this pitch analysis circuit 115 is shared with the pitch output part in the sine wave analysis coding unit 314. It is also possible to do so.

【0062】このように、図3の符号化方式と図1の符
号化方式とは異なっているが、両者とも共通する情報を
持っており、図4に示すようなスケーラビリティを有し
ている。
As described above, although the coding method of FIG. 3 is different from the coding method of FIG. 1, both have common information and have scalability as shown in FIG.

【0063】この図4において、2kbps のビットスト
リームS2は、分析合成フレームがV(有声音)のとき
とUV(無声音)のときとで内部構造が異なっており、
Vのときの2kbps のビットストリームS2v は、2つ
の部分S2ve、S2vaから、UVのときの2kbps のビ
ットストリームS2u は、2つの部分S2ue、S2uaか
らそれぞれ成っている。部分S2veは、ピッチラグが1
フレーム160サンプル当たり1ビット(以下、1ヒ゛ット/
160サンフ゜ルのように示す)で、振幅Am が15ヒ゛ット/160サンフ゜
ル であり、計16ヒ゛ット/160サンフ゜ル となる。これは、8kHz
サンプリングで0.8kbps のビットレートのデータに
相当する。部分S2ueは、LPC残差が11ヒ゛ット/80サンフ゜ル
と、予備の1ヒ゛ット/160サンフ゜ルとで、計23ヒ゛ット/160サンフ゜ル と
なり、1.15kbps のビットレートのデータに相当す
る。2kbps のビットストリームS2の残りの部分S2
va、S2uaは、上述した6kbps 、16kbps との共有
部分あるいは共通部分であり、部分S2vaは、LSPデ
ータ32ヒ゛ット/320サンフ゜ル と、V/UV判定データ1ヒ゛ット/16
0サンフ゜ルと、ピッチラグ7ヒ゛ット/160サンフ゜ルとで、計24ヒ゛ット/1
60サンフ゜ル となり、1.2kbps のビットレートのデータ
に相当する。部分S2uaは、LSPデータ32ヒ゛ット/320サン
フ゜ル と、V/UV判定データ1ヒ゛ット/160サンフ゜ルとで、計17
ヒ゛ット/160サンフ゜ル となり、0.85kbps のビットレート
のデータに相当する。
In FIG. 4, the internal structure of the 2 kbps bit stream S2 differs depending on whether the analysis and synthesis frame is V (voiced sound) or UV (unvoiced sound).
2 kbps bitstream S2v for V Is a 2 kbps bit stream S2u for UV from two parts S2ve and S2va. Consists of two parts S2ue and S2ua, respectively. Part S2ve has a pitch lag of 1
1 bit per 160 frame sample (hereinafter 1 bit /
(Shown as 160 samples), the amplitude Am is 15 bits / 160 samples, giving a total of 16 bits / 160 samples. This is 8kHz
It corresponds to data having a bit rate of 0.8 kbps in sampling. The partial S2ue has an LPC residual of 11 bits / 80 samples and a spare 1 bit / 160 samples, for a total of 23 bits / 160 samples, which corresponds to a bit rate of 1.15 kbps. Remaining part S2 of 2 kbps bit stream S2
va and S2ua are common parts or common parts with the above-mentioned 6 kbps and 16 kbps, and the part S2va is LSP data 32 bits / 320 samples and V / UV judgment data 1 bit / 16.
A total of 24 bits / one with 0 samples and pitch lugs 7 bits / 160 samples
It is 60 samples, which is equivalent to data at a bit rate of 1.2 kbps. Part S2ua consists of LSP data 32 bits / 320 samples and V / UV judgment data 1 bit / 160 samples, totaling 17 parts.
It becomes a bit / 160 sample, which corresponds to a bit rate of 0.85 kbps.

【0064】また、6kbps のビットストリームS6
は、上記ビットストリームS2と同様に、分析フレーム
がVのときとUVのときとで内部構造が一部だけ異な
る。Vのときの6kbps のビットストリームS6v は、
2つの部分S6va、S6vbから、UVのときの6kbps
のビットストリームS6u は、2つの部分S6ua、S6
ubからそれぞれ成っている。部分S6vaは、上述したよ
うに、部分S2vaと共通のデータ内容であり、部分S6
vbは、ピッチゲイン6ヒ゛ット/160サンフ゜ルと、ピッチ残差18ヒ゛
ット/32サンフ゜ルとで、計96ヒ゛ット/160サンフ゜ル となり、4.8k
bps のビットレートのデータに相当する。また、部分S
6uaは、上記部分S2uaと共通のデータ内容であり、部
分S6ubは、上記部分S6vbと共通のデータ内容であ
る。
In addition, a 6 kbps bit stream S6
In the same manner as the bit stream S2, the internal structure differs only partially when the analysis frame is V and when it is UV. The 6 kbps bitstream S6v at V is
From 2 parts S6va and S6vb, 6 kbps for UV
Of the bit stream S6u of the two parts S6ua, S6
Each made up of ubs. As described above, the part S6va has the same data content as the part S2va, and the part S6va
vb is a pitch gain of 6 bits / 160 samples and a pitch residual of 18 bits / 32 samples, giving a total of 96 bits / 160 samples, 4.8k.
Corresponds to bps bit rate data. Also, part S
6ua has the same data content as the above part S2ua, and the part S6ub has the same data content as the above part S6vb.

【0065】また、16kbps のビットストリームS1
6は、上記ビットストリームS2及びS6と同様に分析
フレームがVのときとUVのときとで内部構造が一部だ
け異なる。Vのときの16kbps のビットストリームS
16v は、4つの部分S16va、S16vb、S16vc、
S16vdから、UVのときの16kbps のビットストリ
ームS16u は、4つの部分S16ua、S16ub、S1
6uc、S16udからそれぞれ成っている。部分S16va
は、上記部分S2va、S6vaと共通のデータ内容であ
り、S16vbは、上記部分S6vb、S6ubと共通のデー
タ内容である。部分S16vcは、ピッチラグ2ヒ゛ット/160サ
ンフ゜ルと、ピッチゲイン11ヒ゛ット/160サンフ゜ル と、ピッチ残差
18ヒ゛ット/32サンフ゜ルと、S/Mモードデータ1ヒ゛ット/160サンフ゜ル
とで、計104ヒ゛ット/160サンフ゜ルとなり、5.2kbps のビッ
トレートに相当する。なお、上記S/Mモードデータ
は、VQ回路124で、音声(Speech)用と楽音(Musi
c) 用とで異なる2種類のコードブック(符号帳)を切
り換えるためのものである。部分S16vdは、高域LP
Cデータ5ヒ゛ット/160サンフ゜ルと、高域LPC残差15ヒ゛ット/32サ
ンフ゜ルとで、計80ヒ゛ット/160サンフ゜ル となり、4kbps のビッ
トレートに相当する。また、部分S16uaは、上記部分
S2ua、S6uaと共通のデータ内容であり、部分S16
ubは、上記部分S16vbすなわち上記部分S6vb、S6
ubと共通のデータ内容である。さらに、部分S16uc
は、上記部分S16vcと共通のデータ内容であり、部分
S16udは、上記部分S16vdと共通のデータ内容であ
る。
In addition, a bit stream S1 of 16 kbps
6, like the bit streams S2 and S6, the internal structure differs only partially when the analysis frame is V and when it is UV. 16 kbps bit stream S for V
16v is four parts S16va, S16vb, S16vc,
From S16vd, the 16 kbps bitstream S16u for UV is divided into four parts S16ua, S16ub, and S1.
It consists of 6uc and S16ud. Part S16va
Is the data content common to the parts S2va and S6va, and S16vb is the data content common to the parts S6vb and S6ub. Part S16vc is pitch lag 2 bits / 160 samples, pitch gain 11 bits / 160 samples, and pitch residual
18 bits / 32 samples and 1 bit / 160 samples of S / M mode data give a total of 104 bits / 160 samples, which corresponds to a bit rate of 5.2 kbps. The S / M mode data is sent to the VQ circuit 124 for voice (Speech) and music (Musi).
It is for switching between two types of codebooks (codebooks), which are different for and for c). Part S16vd is high frequency LP
C data 5 bits / 160 samples and high band LPC residual 15 bits / 32 samples gives a total of 80 bits / 160 samples, which corresponds to a bit rate of 4 kbps. The portion S16ua has the same data content as the portions S2ua and S6ua.
ub is the portion S16vb, that is, the portions S6vb and S6.
It has the same data contents as ub. Furthermore, part S16uc
Is the data content common to the above-mentioned part S16vc, and the part S16ud is the data content common to the above-mentioned part S16vd.

【0066】以上のようなビットストリームを得るため
の図1、図3の構成をまとめると、図5のようになる。
The configuration of FIGS. 1 and 3 for obtaining the above bit stream is summarized as shown in FIG.

【0067】この図5において、入力端子11は図1、
図3の入力端子101に対応し、これが図1のLPF1
02、サンプリング周波数変換器103、減算器10
6、BPF107等に相当する帯域分割回路12に送ら
れて、低域側と高域側とに分割される。帯域分割回路1
2からの低域側信号は、図3の構成に対応する2k符号
化部21と共通部分符号化部22とに送られる。共通部
分符号化部22は、図1のLPC分析・量子化部13
0、あるいは図3のLPC分析・量子化部310にほぼ
相当し、さらに図3のサイン波分析符号化部内のピッチ
抽出部分や図1のピッチ分析回路115も共通部分符号
化部22に含ませることもできる。
In FIG. 5, the input terminal 11 is shown in FIG.
This corresponds to the input terminal 101 of FIG. 3, and this is the LPF 1 of FIG.
02, sampling frequency converter 103, subtractor 10
6, sent to the band division circuit 12 corresponding to the BPF 107 and the like, and divided into the low frequency side and the high frequency side. Band division circuit 1
The low frequency side signal from 2 is sent to the 2k encoding unit 21 and the common partial encoding unit 22 corresponding to the configuration of FIG. The common partial encoding unit 22 is the LPC analysis / quantization unit 13 of FIG.
0, or almost equivalent to the LPC analysis / quantization unit 310 in FIG. 3, and the pitch extraction unit in the sine wave analysis coding unit in FIG. 3 and the pitch analysis circuit 115 in FIG. 1 are also included in the common partial coding unit 22. You can also

【0068】また、帯域分割回路12からの低域側信号
は、6k符号化部23及び12k符号化部24にも送ら
れる。6k符号化部23は、図1の回路111〜116
にほぼ相当し、12k符号化部は、図1の回路117、
118、122〜128にほぼ相当する。
The low-frequency side signal from the band division circuit 12 is also sent to the 6k coding unit 23 and the 12k coding unit 24. The 6k encoding unit 23 includes the circuits 111 to 116 shown in FIG.
, And the 12k encoding unit corresponds to the circuit 117 of FIG.
118, 122 to 128 are substantially equivalent.

【0069】帯域分割回路12からの高域側信号は、高
域4k符号化部25に送られる。高域4k符号化部25
は、図1の回路161〜164、171、172にほぼ
相当する。
The high band side signal from the band dividing circuit 12 is sent to the high band 4k encoding unit 25. High frequency 4k encoding unit 25
Substantially correspond to the circuits 161-164, 171, 172 of FIG.

【0070】この図5の各出力端子31〜35から出力
されるビットストリームと図4の各部分との関係を説明
する。2k符号化部21から出力端子31を介して、図
4の部分S2ve又はS2ueのデータが出力され、共通部
分符号化部22から出力端子32を介して、図4の部分
S2va(=S6va=S16va)又はS2ua(=S6ua=
S16ua)のデータが出力される。また、6k符号化部
23から出力端子33を介して、図4の部分S6vb(=
S16vb)又はS6ub(=S16ub)のデータが出力さ
れる。さらに、12k符号化部24から出力端子34を
介して、図4の部分S16vc又はS16ucのデータが出
力され、高域4k符号化部25から出力端子35を介し
て、図4の部分S16vd又はS16udのデータが出力さ
れる。
The relationship between the bit stream output from the output terminals 31 to 35 of FIG. 5 and the respective portions of FIG. 4 will be described. The data of the portion S2ve or S2ue in FIG. 4 is output from the 2k encoding unit 21 through the output terminal 31, and the portion S2va (= S6va = S16va in FIG. 4 is output from the common partial encoding unit 22 through the output terminal 32. ) Or S2ua (= S6ua =
The data of S16ua) is output. Further, the portion S6vb (= in FIG. 4 is transmitted from the 6k encoding unit 23 via the output terminal 33.
The data of S16vb) or S6ub (= S16ub) is output. Further, the data of the portion S16vc or S16uc of FIG. 4 is output from the 12k encoding unit 24 via the output terminal 34, and the high frequency 4k encoding unit 25 outputs the data of the portion S16vd or S16ud of FIG. 4 via the output terminal 35. Data is output.

【0071】以上説明したスケーラビリティの実現の技
術を一般化すると、入力信号に対して第1の符号化を施
して得られた第1の符号化信号と、上記入力信号に対し
て上記第1の符号化の一部とのみ共通する部分と共通し
ない部分とを有し上記第1の符号化とは独立の第2の符
号化を施して得られた第2の符号化信号とを多重化する
際に、上記第1の符号化信号と、上記第2の符号化信号
の内の上記第1の符号化信号と共通する部分を除く信号
とを多重化することである。
Generalizing the above-described technique for realizing scalability, the first coded signal obtained by performing the first coding on the input signal and the first coded signal on the input signal are obtained. The second coded signal obtained by performing the second coding independent of the first coding and having a part common to only a part of the coding and a part not common to the first coding is multiplexed. At this time, the first coded signal is multiplexed with a signal of the second coded signal excluding a portion common to the first coded signal.

【0072】これによって、本質的に異なる符号化方式
であっても、共有できるものを最大限に共有させて、ス
ケーラビリティを持たせることができる。
This makes it possible to maximize the share of what can be shared even if the encoding systems are essentially different, thereby providing scalability.

【0073】次に、上記図1、図2の各部のより具体的
な動作について説明する。
Next, a more specific operation of each unit shown in FIGS. 1 and 2 will be described.

【0074】先ず、図6の(A)に示すように、フレー
ム間隔、いわゆるフレームインターバルをNサンプル、
例えば160サンプルとし、1フレームに1回の分析を
行う場合について説明する。
First, as shown in FIG. 6A, the frame interval, so-called frame interval, is set to N samples,
For example, a case will be described where 160 samples are used and analysis is performed once per frame.

【0075】ピッチ分析中心をt=kN(ただしk=0,
1,2,3,…)とするとき、LPC逆フィルタ111からの
LPC予測残差について、t= kN-N/2 〜 kN+N/2 に存
在する成分から成る次元数Nのベクトルをとし、これ
をLサンプルだけ時間軸の前方にずらしたt= kN-N/2-
L 〜 kN+N/2-L の成分から成るN次元ベクトルをL
して、 ‖−gL 2 が最小となるようL=Lopt をサーチし、このLopt
この区間での最適ピッチラグL1 とする。あるいは、ピ
ッチの急激な変化を避けるため、ピッチトラッキングを
行った後の値を最適ピッチラグL1 としてもよい。
The pitch analysis center is t = kN (where k = 0,
1,2,3, when the ...), the LPC prediction residuals from the LPC inverted filter 111, a vector of t = kN-N / 2 ~ kN + N / 2 number of dimensions consisting of components present in the N X And t = kN-N / 2- which is shifted L samples forward of the time axis.
The N-dimensional vector consisting of components of L ~ kN + N / 2- L as X L, X -g X L 2 searches the L = L opt to be the smallest, in the L opt in this section The optimum pitch lag L 1 is set. Alternatively, in order to avoid a rapid change in pitch, the value after pitch tracking may be set as the optimum pitch lag L 1 .

【0076】次に、この最適ピッチラグL1 に対して、Next, with respect to this optimum pitch lag L 1 ,

【0077】[0077]

【数1】 (Equation 1)

【0078】が最小となるgi の組をThe set of g i that minimizes

【0079】[0079]

【数2】 (Equation 2)

【0080】について解き、ピッチゲインベクトル1
を求める。このピッチゲインベクトル1 をベクトル量
子化したもののコードブックインデクスをg1 とする。
Solving for the pitch gain vector g 1
Ask for. The codebook index of vector-quantized pitch gain vector g 1 is g 1 .

【0081】次に、さらに予測精度を上げるため、t=
(k-1/2)Nにも分析中心をおくことを考える。このとき、
予めt=kN及び(k-1)Nでのピッチラグ、ピッチゲインが
それぞれ求められているものとする。
Next, in order to further improve the prediction accuracy, t =
Consider putting the analysis center on (k-1 / 2) N. At this time,
It is assumed that the pitch lag and the pitch gain at t = kN and (k-1) N are obtained in advance.

【0082】音声信号の場合、その基本周波数はゆるや
かに変化すると考えられるため、t=kNのときのピッチ
ラグL(kN)と、t=(k-1)NのときのピッチラグL((k-1)
N)ととの間に大きな変化はないと考えられ、またその変
化も線形であると考えられるため、t=(k-1/2)Nのとき
のピッチラグL((k-1/2)N)のとり得る値に制限を加える
ことは可能である。本例では、次のようにしている。
In the case of a voice signal, its fundamental frequency is considered to change gently, so that the pitch lag L (kN) at t = kN and the pitch lag L ((k- 1)
It is considered that there is no significant change between N) and N, and that change is also linear, so pitch lag L ((k-1 / 2) when t = (k-1 / 2) N It is possible to limit the possible values of N). In this example, the following is done.

【0083】 L((k-1/2)N) = L(kN) = (L(kN)+L((k-1)N))/2 = L((k-1)N) これらの内のどの値を採用するかは、それぞれのラグに
対応したピッチ残差のパワーを計算することによってな
される。
L ((k-1 / 2) N) = L (kN) = (L (kN) + L ((k-1) N)) / 2 = L ((k-1) N) Which value is adopted is determined by calculating the power of the pitch residual corresponding to each lag.

【0084】すなわち、t=(k-1/2)Nを中心としたt=
(k-1/2)N-N/4〜(k-1/2)N+N/4の次元数N/2のベクトル
とし、L(kN)、(L(kN)+L((k-1)N))/2、L((k-1)N)
だけそれぞれ遅れた次元数N/2のベクトルを0 (0)
1 (0) 2 (0) とし、これらの各ベクトル0 (0) 1
(0) 及び2 (0) のそれぞれの近傍のベクトルを0 (-1)
0 (1) 1 (-1) 1 (1) 及び2 (-1) 2 (1) とす
る。また、これらの各ベクトル0 (i) 1 (i) 2 (i)
(ただしi=−1、0、1)に対応する核ピッチゲイン
0 (i)、g1 (i)、g2 (i)について、
That is, t = centered on t = (k-1 / 2) N
Let X be a vector of dimension number N / 2 of (k-1 / 2) NN / 4 to (k-1 / 2) N + N / 4, and let L (kN) and (L (kN) + L ((k -1) N)) / 2, L ((k-1) N)
The vector of the number of dimensions N / 2 delayed respectively by X 0 (0) ,
X 1 (0) , X 2 (0), and these respective vectors X 0 (0) , X 1
(0) and X 2 (0) each vector near X 0 (-1) ,
X 0 (1) , X 1 (-1) , X 1 (1) and X 2 (-1) , X 2 (1) . Also, each of these vectors X 0 (i) , X 1 (i) , X 2 (i)
For the nuclear pitch gains g 0 (i) , g 1 (i) and g 2 (i) corresponding to (where i = −1, 0 , 1 ) ,

【0085】[0085]

【数3】 (Equation 3)

【0086】の3つうちの最小のものDj に対するラグ
を、t=(k-1/2)Nでの最適ラグL2 とし、そのときのピ
ッチゲインgj (i)(ただしi=−1、0、1)をベクト
ル量子化した上でピッチゲインを求める。なお、L2
とり得る値は3通りであり、これは現在及び過去のL1
から求められるため、ストレートな値ではなく補間スキ
ームを表すフラグを補間インデクスとして伝送すればよ
い。また、L(kN)、L((k-1)N)のいずれかが0、すなわ
ちピッチが無い、ピッチ予測利得がとれない、と判断さ
れるときには、L((k-1/2)N)の候補として上記(L(kN)+L
((k-1)N))/2 は除外される。
The lag with respect to the smallest one of the three, D j , is the optimum lag L 2 at t = (k-1 / 2) N, and the pitch gain g j (i) at that time (where i =- 1, 0, 1) are vector-quantized and then the pitch gain is obtained. There are three possible values for L 2 , which are the current and past L 1 values.
Therefore, a flag representing an interpolation scheme, rather than a straight value, may be transmitted as an interpolation index. Further, when it is determined that either L (kN) or L ((k-1) N) is 0, that is, there is no pitch and the pitch prediction gain cannot be obtained, L ((k-1 / 2) N ) Above (L (kN) + L
((k-1) N)) / 2 is excluded.

【0087】このように、ピッチラグ算出に用いるベク
トルの次元数を半分のN/2 にした場合、t=kNが分析
中心のときのLk はそのまま用いることができるが、
の次元数がNで分析したときのピッチゲインが得られて
いるにも拘わらず、再度ゲイン計算を行い、そのデータ
を伝送しなければならない。ここでは、そのビット数削
減のため、
[0087] Thus, when the number of dimensions of the vector X used for the pitch lag calculated half N / 2, t = it kN is L k when the analysis center may be used as it is, X
Even though the pitch gain is obtained when the number of dimensions is analyzed by N, the gain must be calculated again and the data must be transmitted. Here, to reduce the number of bits,

【0088】[0088]

【数4】 (Equation 4)

【0089】ベクトルの要素(g0,g1,g2) の内、
1 がもっとも大きくg0,g2 は0に近いか、あるいは
その逆であり、ベクトルは3点の間で強い相関がある
ので、上記ベクトル1d は元のベクトルに比べて分散
が小さくなることが予想され、より少ないビット数で量
子化できる。
Of the elements (g 0 , g 1 , g 2 ) of the vector g ,
Since g 1 is the largest and g 0 and g 2 are close to 0 or vice versa and the vector g has a strong correlation among the three points, the vector g 1d has a variance larger than that of the original vector g. It is expected to be smaller and can be quantized with a smaller number of bits.

【0090】従って、1フレームで伝送すべきピッチパ
ラメータは、L1,g1,L2,g2,g1dの5つになる。
Accordingly, there are five pitch parameters L 1 , g 1 , L 2 , g 2 , g 1d to be transmitted in one frame.

【0091】次に、図5の(B)は、フレーム周波数の
8倍のレートで補間されたLPC係数の位相を示してお
り、このLPC係数は、図1のLPC逆フィルタ111
による予測残差算出に用いられ、また図2のLPC合成
フィルタ215、225、ピッチスペクトラルポストフ
ィルタ216、226にそれぞれ用いられる。
Next, FIG. 5B shows the phase of the LPC coefficient interpolated at a rate of 8 times the frame frequency. This LPC coefficient is the LPC inverse filter 111 of FIG.
2 is used for the prediction residual calculation, and is also used for the LPC synthesis filters 215 and 225 and the pitch spectral post filters 216 and 226 of FIG.

【0092】次に、上記ピッチラグ及びピッチゲインか
ら求められたピッチ残差のベクトル量子化について説明
する。
Next, vector quantization of the pitch residual obtained from the pitch lag and the pitch gain will be described.

【0093】ベクトル量子化の聴覚重み付けを容易にま
た精度よく行うため、ピッチ残差は50%オーバーラッ
プの窓かけをした上、MDCT変換を行い、この領域で
重み付けベクトル量子化を行う。このときの変換長は任
意であるが、以下の点を考慮して上で、この例ではかな
り小次元なものを用いている。
In order to easily and accurately perform the perceptual weighting of the vector quantization, the pitch residual is windowed by 50% overlap, the MDCT transformation is performed, and the weighting vector quantization is performed in this region. The conversion length at this time is arbitrary, but in consideration of the following points, a considerably small dimension is used in this example.

【0094】(1) 大次元のベクトル量子化は演算量が膨
大になり、MDCT領域でスプリットあるいは並べ替え
を行わざるを得ない。 (2) スプリットした場合、スプリットされたバンド間の
ビットアロケーションを精密に行うことは大変困難であ
る。 (3) 次元数が2のべき乗ではないとき、FFTを用いた
MDCTの高速算法が使用できない。
(1) The large-dimensional vector quantization requires an enormous amount of calculation, and there is no choice but to perform splitting or rearrangement in the MDCT domain. (2) When splitting, it is very difficult to perform precise bit allocation between the split bands. (3) When the number of dimensions is not a power of 2, the high-speed arithmetic method of MDCT using FFT cannot be used.

【0095】今回はフレーム長を20msec (=160
サンプル/8kHz)にとっているため、160/5=3
2=25 となることから、50%オーバーラップを考慮
してMDCT変換サイズを64にとり、上記(1)〜(3)の
各点の解決を図った。
This time, the frame length is 20 msec (= 160
160/5 = 3 because it is for sample / 8 kHz)
Since 2 = 25 , the MDCT transform size is set to 64 in consideration of 50% overlap and the above points (1) to (3) are solved.

【0096】フレーミングの状態は図6の(C)のよう
になる。
The framing state is as shown in FIG.

【0097】すなわち、この図6の(C)において、2
0msec =160サンプルのフレーム内のピッチ残差r
p(n) (ただしn=0,1,…,191、ここでn=160,…,191は、
次のフレームの0,…,31の意味)を5つのサブフレーム
に分け、5つのサブフレームのi番目(i=0,1,…,4)の
サブフレームのピッチ残差rpi(n) (ただし、n=0,1,
…,31) を、 rpi(n) = rp(32i+n) とする。このサブフレームのピッチ残差rpi(n) に、M
DCTのエリアシング相殺ができるような窓関数w(n)
をかけて得られるw(n)・rpi(n)に対してMDCT変換
を施す。この窓関数w(n) としては、例えば w(n) = √(1−(cos2π(n+0.5))/64) を用いればよい。
That is, in FIG. 6C, 2
Pitch residual r in the frame of 0 msec = 160 samples
p (n) (where n = 0,1, ..., 191, where n = 160, ..., 191 is
(Meaning 0, ..., 31 of the next frame) is divided into 5 subframes, and the pitch residual r pi (n) of the i-th (i = 0,1, ..., 4) subframe of the 5 subframes (However, n = 0,1,
, 31) is set as r pi (n) = r p (32i + n). For the pitch residual r pi (n) of this subframe, M
Window function w (n) that can cancel aliasing of DCT
MDCT conversion is applied to w (n) · r pi (n) obtained by multiplying by. As the window function w (n), for example, w (n) = √ (1- (cos2π (n + 0.5)) / 64) may be used.

【0098】なお、MDCTの変換処理の演算は、変換
長が64(=26) のため、FFTを用いて次のように
計算できる。
Since the conversion length of the MDCT conversion process is 64 (= 2 6 ), it can be calculated as follows using FFT.

【0099】(1) x(n) = w(n)・rpi(n)・exp((-2π
j/64)(n/2)) とする。 (2) x(n) を64ポイントFFT処理し、これをy(k)
とする。 (3) y(k)・exp((-2πj/64)(k+1/2)(1/2+64/4)) の実部
をとり、これをMDCT係数ci(k)(ただし、k=0,1,
…,31) とする。
(1) x (n) = w (n) .rpi (n) .exp ((-2π
j / 64) (n / 2)). (2) x (n) is 64-point FFT processed and this is y (k)
And (3) Take the real part of y (k) ・ exp ((-2πj / 64) (k + 1/2) (1/2 + 64/4)), and use this as the MDCT coefficient c i (k) (however, , K = 0,1,
…, 31).

【0100】次に、各サブフレームのMDCT係数c
i(k)をベクトル量子化するが、このときの重み付けにつ
いて説明する。
Next, the MDCT coefficient c of each subframe
Vector quantization is performed on i (k), and the weighting at this time will be described.

【0101】ピッチ残差rpi(n) をベクトルi とおく
と、合成後の距離Dは、
Letting the pitch residual r pi (n) be the vector r i , the distance D after synthesis is

【0102】[0102]

【数5】 (Equation 5)

【0103】ここで、Mは、その性質からHtH (ただ
しHt はHの転置行列)を対角化すると考えられるの
で、
Here, M is considered to diagonalize H t H (where H t is a transposed matrix of H) because of its nature.

【0104】[0104]

【数6】 (Equation 6)

【0105】とし、ここではhi を合成フィルタの周波
数応答にとった。従って、
Here, h i is taken as the frequency response of the synthesis filter. Therefore,

【0106】[0106]

【数7】 (Equation 7)

【0107】このように、hk をそのままci(k)の量子
化の重み付けに使用した場合、合成後のノイズがフラッ
トになる、いわゆる100%ノイズシェイピングになる
ため、さらに聴覚重み付けWによりフォルマントを相似
形のノイズになるようにコントロールする。
As described above, when h k is used as it is for weighting the quantization of c i (k), the noise after synthesis becomes flat, that is, so-called 100% noise shaping. Control so that it becomes a noise of similar shape.

【0108】[0108]

【数8】 (Equation 8)

【0109】なお、hi 2、wi 2は、合成フィルタH(z)
及び聴覚重み付けフィルタW(z)
Note that h i 2 and w i 2 are synthesis filters H (z)
And perceptual weighting filter W (z)

【0110】[0110]

【数9】 (Equation 9)

【0111】のインパルス応答のFFTパワースペクト
ルとして求められる。
The FFT power spectrum of the impulse response of is obtained.

【0112】ここで、αijは、第iサブフレームに対応
するLPC係数であり、補間されたLSP係数から求め
られる。すなわち、前フレームの分析で得られたLSP
0(j)と現フレームのLSP1(j)とを内分し、本例の場
合、第iサブフレームのLSPは、
Here, α ij is the LPC coefficient corresponding to the i-th subframe, and is obtained from the interpolated LSP coefficient. That is, the LSP obtained by the analysis of the previous frame
0 (j) and LSP 1 (j) of the current frame are internally divided, and in this example, the LSP of the i-th subframe is

【0113】[0113]

【数10】 (Equation 10)

【0114】としてLSP(i)(j)を求める。その後、L
SP→α変換によりαijを求める。
LSP (i) (j) is obtained as Then L
Obtain α ij by SP → α conversion.

【0115】このようにして求められたH、Wに対し
て、新たにW’=WHと置き、ベクトル量子化の際の距
離尺度として用いる。
With respect to H and W thus obtained, W '= WH is newly set and used as a distance measure in vector quantization.

【0116】ベクトル量子化は、シェイプ、ゲインベク
トル量子化によって行うが、その学習時の最適エンコー
ド、デコード条件について説明する。
Vector quantization is performed by shape and gain vector quantization. Optimal encoding and decoding conditions at the time of learning will be described.

【0117】学習のある時点でのシェイプコードブック
、ゲインコードブックをgとし、トレーニング時の
入力すなわち各サブフレームでのMDCT係数を、そ
のサブフレームでの重みをW´とすると、このときの歪
のパワー2 は、以下の式で定義される。
Let s be the shape codebook at a certain point in learning, g be the gain codebook, x be the MDCT coefficient in the training input, that is, in each subframe, and W ′ be the weight in that subframe. The distortion power D 2 at this time is defined by the following equation.

【0118】2 =‖W´(−g)‖2 この2 を最小にするような(g、)を選択すること
が最適エンコード条件である。
D 2 = ‖W ′ ( x− g s ) ‖ 2 The optimum encoding condition is to select (g, s ) that minimizes this D 2 .

【0119】[0119]

【数11】 [Equation 11]

【0120】したがって、まず第1のステップとして、
シェイプコードブックについて、
Therefore, first of all, as the first step,
About shape code book,

【0121】[0121]

【数12】 (Equation 12)

【0122】を最大にするopt をサーチし、ゲインコ
ードブックについては、このopt に対し、
Search for s opt that maximizes, and for the gain codebook, for this s opt ,

【0123】[0123]

【数13】 (Equation 13)

【0124】に最も近いgopt をサーチすればよい。It suffices to search g opt closest to.

【0125】次に、最適デコード条件を求める。Next, the optimum decoding condition is obtained.

【0126】第2のステップとしてシェイプコードブッ
クについて、学習中のある時点でシェイプコードブック
にエンコードされたの集合k (k=0,…,N−
1)に対して、このときの歪の総和Es は、
As the second step, regarding the shape codebook, at some point during learning, the shape codebook is
A set of encoded x in s x k (k = 0, ..., N-
In contrast to 1), the total distortion E s at this time is

【0127】[0127]

【数14】 [Equation 14]

【0128】であるから、これを最小にするは、Therefore, s that minimizes this is

【0129】[0129]

【数15】 (Equation 15)

【0130】よりFrom

【0131】[0131]

【数16】 (Equation 16)

【0132】と求められる。Is calculated.

【0133】ゲインコードブックについては、ゲインコ
ードブックgにエンコードされたの集合k (重みW
´k 、シェイプk )について、歪の総和Eg は、
For the gain codebook, a set x k of x encoded in gain codebook g (weight W
K , shape s k ), the sum of distortion E g is

【0134】[0134]

【数17】 [Equation 17]

【0135】である。Is as follows.

【0136】上記第1、第2のステップを繰り返し求め
ながら、GLA(一般化ロイドアルゴリズム)によっ
て、シェイプ、ゲインコードブックを得ることができ
る。
A shape and gain codebook can be obtained by GLA (generalized Lloyd algorithm) while repeatedly obtaining the first and second steps.

【0137】なお、本例では、信号レベルの小さいとき
のノイズを重視するため、W´そのものでなく、レベル
(の逆数)の重みをつけたW´/‖‖を用いて学習を
行っている。
[0137] In this embodiment, in order to emphasize the noise when the signal level is low, W'not itself, W'was weighted levels (inverse of) / ‖ x ‖ performing learning using There is.

【0138】このようにして、作成した符号帳を用いて
ピッチ残差をMDCTしたものに対するベクトル量子化
を行い、そのインデクスをLPC(実際にはLSP)、
ピッチ、ピッチゲインととともに伝送し、デコード側で
は逆ベクトル量子化、ピッチ、LPC合成を行うこと
で、再生音を得ることができるが、本例では、さらにレ
ートの高い動作を可能とするため、前述のピッチラグ、
ピッチゲイン算出の頻度向上とともに、ピッチ残差MD
CTベクトル量子化を多段にすることで、これに対応し
ている。
In this way, vector quantization is performed on the MDCT of the pitch residual using the codebook created in this way, and its index is LPC (actually LSP),
By transmitting together with the pitch and the pitch gain and performing the inverse vector quantization, the pitch, and the LPC synthesis on the decoding side, the reproduced sound can be obtained, but in this example, since the operation with a higher rate is possible, The aforementioned pitch lag,
As the frequency of pitch gain calculation is improved, the pitch residual MD
This is dealt with by making the CT vector quantization multistage.

【0139】一例を図7の(A)に示す。ここでの段数
は2段であり、シーケンシャルな多段ベクトル量子化で
あるが、2段目の入力は1段目のデコード結果をL2
2、g1dから作られた精度の高いピッチ残差から引い
たものとして用いる。すなわち、1段目のMDCT回路
113からの出力をVQ回路114でベクトル量子化し
た後の代表ベクトルあるいは逆量子化出力を、逆MDC
T回路113aで逆MDCT処理した結果を、減算器1
28’に送り、2段目の残差(図1のピッチ逆フィルタ
122からの出力)から減算している。この減算器12
8’からの出力をMDCT回路123’によりMDCT
処理してVQ回路124で量子化する。これは、1段目
の逆MDCTを行わない等価な図7の(B)のような構
成とすることができ、図1ではこの(B)の構成を用い
ている。
An example is shown in FIG. The number of stages here is two, which is sequential multi-stage vector quantization, but the input of the second stage is the decoding result of the first stage is L 2 ,
Used as subtracted from the highly accurate pitch residual made from g 2 and g 1d . That is, the representative vector or the dequantized output after vector-quantizing the output from the MDCT circuit 113 of the first stage by the VQ circuit 114 is the inverse MDC.
The result of the inverse MDCT processing by the T circuit 113a is subtracted by the subtracter 1
28 ', and subtracted from the residual of the second stage (output from the pitch inverse filter 122 of FIG. 1). This subtractor 12
The output from 8'is MDCTed by the MDCT circuit 123 '.
It is processed and quantized by the VQ circuit 124. This can have an equivalent configuration as shown in FIG. 7B in which the inverse MDCT of the first stage is not performed, and this configuration in FIG. 1 is used.

【0140】図2のデコーダ側でMDCT係数のインデ
クスIdxq1、Idxq2をともに用いたデコードをする
際は、Idxq1、Idxq2の逆ベクトル量子化の結果の
和を逆MDCT、オーバーラップ加算をした上で、ピッ
チ合成、LPC合成を行い再生音を得る。当然ピッチ合
成時のピッチラグ、ピッチゲイン更新頻度は、1段のみ
の場合の倍になり、本願では、80サンプル毎に切り換
わるピッチ合成フィルタを駆動することになる。
When performing decoding using both the MDCT coefficient indexes I dx V q1 and I dx V q2 on the decoder side in FIG. 2, the sum of the results of inverse vector quantization of I dx V q1 and I dx V q2. Inverse MDCT and overlap addition are performed, and then pitch synthesis and LPC synthesis are performed to obtain a reproduced sound. Naturally, the pitch lag and pitch gain update frequency at the time of pitch synthesis are doubled in the case of only one stage, and in the present application, a pitch synthesis filter that switches every 80 samples is driven.

【0141】次に、図2のデコーダ側のポストフィルタ
216、226について説明する。
Next, the post filters 216 and 226 on the decoder side in FIG. 2 will be described.

【0142】ポストフィルタ216、226は、ピッチ
強調、高域強調、スペクトル強調フィルタの縦続接続で
ポストフィルタ特性p(Z) を実現する。
The post filters 216 and 226 realize the post filter characteristic p (Z) by cascading pitch enhancement, high frequency enhancement and spectrum enhancement filters.

【0143】[0143]

【数18】 (Equation 18)

【0144】この式において、gi 、Lはピッチ予測で
求められたピッチゲイン、ピッチラグであり、νはピッ
チ強調の度合いを表すパラメータである(例えばν=
0.5)。また、νb は高域強調(例えばνb =0.
4)を、νn 、νd はスペクトルの強調度(例えばνn
=0.5、νd =0.8)を表すパラメータである。
In this equation, g i and L are the pitch gain and pitch lag obtained by pitch prediction, and ν is a parameter indicating the degree of pitch enhancement (for example, ν =
0.5). Further, ν b is high-frequency emphasis (for example, ν b = 0.
4), ν n and ν d are the degree of emphasis of the spectrum (for example, ν n
= 0.5, ν d = 0.8).

【0145】次に、LPC合成フィルタの出力s(n) 、
ポストフィルタの出力sp(n)についてのゲイン補正を行
う。このときの係数kadj は、
Next, the output s (n) of the LPC synthesis filter,
Gain correction is performed on the output s p (n) of the post filter. The coefficient k adj at this time is

【0146】[0146]

【数19】 [Equation 19]

【0147】であるが、kadj はフレーム内で固定では
なく、LPFを通した上でサンプル毎に変化させる。な
お、pとして例えば0.1が用いられる。
However, k adj is not fixed within the frame, but is changed for each sample after passing through the LPF. For example, 0.1 is used as p.

【0148】kadj(n) =(1-p)kadj(n-1) +pkadj 次に、フレームのつなぎを滑らかにするため、以下のよ
うにピッチ強調フィルタを2つ用意し、その結果をクロ
スフェイドしたものを最終出力とする。
K adj (n) = (1-p) k adj (n-1) + pk adj Next, in order to smooth the frame connection, two pitch enhancement filters are prepared as follows, The final output is the result of crossfading.

【0149】[0149]

【数20】 (Equation 20)

【0150】[0150]

【数21】 (Equation 21)

【0151】これにより構成されたポストフィルタの出
力sp0(n) 、sp(n)に対して最終出力sout(n)を、 sout(n)=(1-f(n))・sp0(n)+f(n)・sp(n) とする。ここで、f(n) は、例えば図8に示すような窓
である。この図8の(A)は低レート時、(B)は高レ
ート時をそれぞれ示しており、(B)の80サンプル幅
の窓は、160サンプル、20msec の合成時には2回
繰り返して用いられる。
The final output s out (n) for the outputs s p0 (n) and s p (n) of the post filter thus constructed is s out (n) = (1-f (n)). Let s p0 (n) + f (n) · s p (n). Here, f (n) is a window as shown in FIG. 8, for example. 8A shows a low rate and FIG. 8B shows a high rate, and the 80 sample width window in FIG. 8B is used twice when combining 160 samples and 20 msec.

【0152】次に、図1のエンコーダ側のVQ(ベクト
ル量子化)回路124について説明する。
Next, the VQ (vector quantization) circuit 124 on the encoder side in FIG. 1 will be described.

【0153】このVQ回路124は、音声(Speech)用
と楽音(Music) 用とで互いに異なる2種類の符号帳
(コードブック)を有しており、これらの2種類の符号
帳を入力信号に応じて切り換え選択するようにしてい
る。
This VQ circuit 124 has two types of codebooks (codebooks) that are different from each other for speech and music, and these two types of codebooks are used as input signals. The switching is selected accordingly.

【0154】すなわち、音声、楽音信号の量子化におい
て、量子化器の構成が決まっている場合、この量子化器
の持つ符号帳は、学習時に使用した音声、楽音の性質に
おいて最適なものとなるため、両者を一緒にして学習し
た場合、両者の性質が大きく異なると、学習後の符号帳
は両者の平均的な性質を持つことになる。従って、一つ
の符号帳で量子化器を構成した場合、そのパフォーマン
ス、あるいは平均S/Nは、あまり高くならないことが
予想される。
That is, when the structure of the quantizer is determined in the quantization of the voice and musical tone signals, the codebook of this quantizer becomes the optimum one in the nature of the voice and musical tone used during learning. Therefore, when both are learned together, if the properties of both greatly differ, the codebook after learning will have the average properties of both. Therefore, when a quantizer is configured with one codebook, it is expected that its performance or average S / N will not be so high.

【0155】そこで、本例においては、このように性質
の異なる複数の信号について、それぞれの学習データを
用いて作成した符号量を切り換えて、量子化器の性能を
向上させている。
Therefore, in the present example, the code amount created by using the respective learning data for a plurality of signals having different properties as described above is switched to improve the performance of the quantizer.

【0156】図9は、このような2種類の符号帳C
A、CBBを有するベクトル量子化器の概略的な構成を
示している。
FIG. 9 shows such two kinds of codebooks C.
1 shows a schematic configuration of a vector quantizer having B A and C B B.

【0157】この図9において、入力端子501に供給
された入力信号は、ベクトル量子化器511、512に
送られる。これらのベクトル量子化器511、512
は、それぞれ符号長(コードブック)CBA、CBBを有
している。これらのベクトル量子化器511、512か
らの代表ベクトルあるいは逆量子化出力は、それぞれ減
算器513、514に送られ、元の入力信号との差がと
られて、これらの各誤差分が比較器515に送られる。
比較器515では、各誤差分を比較して、誤差が小さい
方のベクトル量子化器511、512からの量子化出力
であるインデクスを切換スイッチ516で切換選択して
出力端子502に送る。
In FIG. 9, the input signal supplied to the input terminal 501 is sent to the vector quantizers 511 and 512. These vector quantizers 511, 512
Have code lengths (codebooks) CB A and CB B , respectively. The representative vector or dequantized output from these vector quantizers 511 and 512 is sent to subtractors 513 and 514, respectively, and the difference from the original input signal is taken, and these respective error components are compared. Sent to 515.
In the comparator 515, the respective error components are compared with each other, and the index which is the quantized output from the vector quantizer 511, 512 having the smaller error is selectively selected by the selector switch 516 and sent to the output terminal 502.

【0158】この場合、各ベクトル量子化器511、5
12の量子化単位時間あるいは周期よりも、切換スイッ
チ516の切換周期を長くしている。例えば、量子化単
位がフレームを8分割したサブフレームであるとき、切
換スイッチ516をフレーム単位で切り換えている。
In this case, each vector quantizer 511, 5
The changeover cycle of the changeover switch 516 is made longer than the 12 quantization unit times or cycles. For example, when the quantization unit is a subframe obtained by dividing a frame into eight, the changeover switch 516 is switched in the frame unit.

【0159】ここで、例として、それぞれ音声のみ、楽
音のみで学習した同じサイズNで、同じ次元Mの符号帳
CBA、CBBがあるとして、あるフレームのL個のデー
タから成るL次元のデータをサブフレーム長M(=L
/n)でベクトル量子化したとき、量子化後の歪みにつ
いて、符号帳CBA を用いたときをEA(k)、符号帳CB
B を用いたときをEB(k)とする。これらの歪みEA(k)、
B(k)は、それぞれインデクスi,jが選ばれたとし
て、 EA(k)=‖WkAi )‖ EB(k)=‖WkBj )‖ である。この式で、Wk はサブフレームkでの重み付け
行列を表し、Ai Bj は符号帳CBA、CBBのそれぞ
れインデクスi,jに対応する代表ベクトルを表す。
As an example, assuming that there are codebooks CB A and CB B of the same size N and the same dimension M, which are learned only by voice and only by tone, respectively, an L-dimensional data consisting of L data of a certain frame is given. Data X is subframe length M (= L
/ N), when the vector quantization is performed, the distortion after the quantization is E A (k) when the codebook CB A is used, and the codebook CB
Let E B (k) be the case when B is used. These distortions E A (k),
E B (k), as the index i, j was chosen respectively, E A (k) = ‖W k (X - C Ai) ‖ E B (k) = ‖W k (X - C Bj) ‖ Is. In this formula, W k represents a weighting matrix of a subframe k, C Ai, C Bj denote representative vectors corresponding to the codebook CB A, each index i of the CB B, j.

【0160】このようにして得られた2つの歪みに対し
て、1フレーム内での歪みの総和により、そのフレーム
に最適な符号帳を採用することを考える。このときの選
び方について、次の2つの方法が考えられる。
Consideration will be given to adopting the optimum codebook for the two distortions thus obtained, based on the total sum of distortions within one frame. The following two methods can be considered as the selection method at this time.

【0161】第1の方法として、全てのサブフレームに
おいて、符号帳CBA 及びCBB のみを用いて量子化を
行い、歪みのフレーム内総和ΣkA(k) 、ΣkB(k) を
求め、小さい方の歪みの総和を与える符号帳CBA、C
Bのいずれかを1フレームに亘って使用する。
As a first method, in all subframes, quantization is performed using only the codebooks CB A and CB B , and the total sum Σ k E A (k) of the distortions, Σ k E B (k ), And gives the sum of the smaller distortions, codebooks CB A , C
One of B B is used over one frame.

【0162】この第1の方法を実現する構成例を図10
に示す。この図10では、上記図9と対応する部分に同
じ参照番号を付しており、参照番号に添付したa、b、
・・・等の添字は、サブフレームkに対応している。符
号帳CBA については、サブフレーム毎の歪みが得られ
る各減算器513a、513b、・・・、513nから
の出力のフレーム内総和を加算器517でとり、符号帳
CBB については各サブフレーム毎の歪みのフレーム内
総和を加算器518でとって、これらを比較器515で
比較することにより、コードブック切換のための制御信
号あるいは選択フラグを端子503より得ている。
A configuration example for realizing the first method is shown in FIG.
Shown in In FIG. 10, parts corresponding to those in FIG. 9 are given the same reference numerals, and a, b, and
The subscripts such as ... Correspond to the subframe k. The codebook CB A, takes the subtracters 513a distortion of each sub-frame is obtained, 513b, · · ·, the frame total of the output from 513n in adder 517, each sub-frame for the codebook CB B An adder 518 obtains the total sum of distortions for each frame, and a comparator 515 compares them to obtain a control signal or a selection flag for codebook switching from a terminal 503.

【0163】次に、第2の方法は、各サブフレーム毎
に、歪みEA(k)、EB(k)を比較し、これらの比較結果を
フレーム内の全サブフレームに亘って判断処理すること
により符号帳を切換選択するものである。
Next, the second method compares distortions E A (k) and E B (k) for each sub-frame, and judges the comparison result over all sub-frames in the frame. By doing so, the codebook is switched and selected.

【0164】この第2の方法の実現例を図11に示す。
この図11では、各サブフレーム毎に比較を行う比較器
516からの出力を判断ロジック519に送って、例え
ば多数決などにより判断処理し、1ビットの符号帳切換
選択フラグを端子503より得るようにしている。
FIG. 11 shows an example of implementation of this second method.
In FIG. 11, the output from the comparator 516 that performs comparison for each sub-frame is sent to the judgment logic 519, and judgment processing is performed by, for example, a majority decision so that a 1-bit codebook switching selection flag is obtained from the terminal 503. ing.

【0165】なお、この選択フラグが、前述したS/M
(音声/楽音)モードデータとして伝送されるものであ
る。
Note that this selection flag indicates that the S / M
It is transmitted as (voice / tone) mode data.

【0166】このようにして、複数の性質の異なる信号
を、1つの量子化装置により効率よく量子化できる。
In this way, a plurality of signals having different characteristics can be efficiently quantized by one quantizer.

【0167】次に、図1のFFT回路161、周波数シ
フト回路162、逆FFT回路163による周波数変換
処理について説明する。
Next, the frequency conversion processing by the FFT circuit 161, the frequency shift circuit 162, and the inverse FFT circuit 163 of FIG. 1 will be described.

【0168】この周波数変換処理は、入力信号の内の少
なくとも1つの帯域を取り出す帯域抽出工程と、抽出さ
れた少なくとも1つの帯域の信号を周波数軸上の信号に
変換する直交変換工程と、直交変換された信号を周波数
軸上で(他の位置に、他の帯域に)シフトさせるシフト
工程と、周波数軸上でシフトされた信号を逆直交変換し
て時間軸上の信号に変換する逆直交変換工程とを有して
いる。
This frequency conversion processing includes a band extraction step of extracting at least one band of the input signal, an orthogonal conversion step of converting the extracted signal of at least one band into a signal on the frequency axis, and an orthogonal conversion. Shift step for shifting the shifted signal on the frequency axis (to another position, to another band), and inverse orthogonal transformation for transforming the signal shifted on the frequency axis to a signal on the time axis And the process.

【0169】図12は、上記周波数変換のための構成を
より詳しく示した図であり、図1と対応する部分には同
じ番号を付している。この図12において、入力端子1
01には、例えば16kHzサンプリングで0〜8KHzの
成分を持つ広帯域音声信号が供給されている。この入力
端子101からの広帯域音声信号の内、例えば0〜3.
8kHzを低域側信号としてLPF(ローパスフィルタ)
102により分離し、また元の広帯域信号からこの低域
側信号を減算器151で差し引いた成分を高域側信号と
して分離する。これらの低域側信号と高域側信号とを独
立に処理するようにしている。
FIG. 12 is a diagram showing in more detail the configuration for the above frequency conversion, and the parts corresponding to those in FIG. 1 are designated by the same reference numerals. In FIG. 12, the input terminal 1
01 is supplied with a wideband audio signal having a component of 0 to 8 kHz at 16 kHz sampling, for example. Of the wideband audio signals from the input terminal 101, for example, 0-3.
LPF (low-pass filter) with 8 kHz as the low frequency side signal
The signal is separated by 102, and the component obtained by subtracting the low frequency side signal from the original wide band signal by the subtractor 151 is separated as the high frequency side signal. The low-frequency side signal and the high-frequency side signal are processed independently.

【0170】ここで得た高域側信号は、LPF102を
介してもわずかに残っている3.5kHzから8kHzまで
の4.5kHzの周波数幅を持つが、ダウンサンプリング
して信号処理を行うため、4kHz幅まで狭めなくてはな
らない。この例では、7.5kHz〜8kHzの0.5kHz
分をBPF(バンドパスフィルタ)107あるいはLP
Fによりカットしている。
The high-frequency side signal obtained here has a frequency width of 4.5 kHz from 3.5 kHz to 8 kHz, which is slightly left even through the LPF 102, but since it is down-sampled for signal processing, We need to narrow it down to 4 kHz. In this example, 0.5 kHz from 7.5 kHz to 8 kHz
BPF (bandpass filter) 107 or LP
Cut by F.

【0171】次に、低域側への周波数変換として例えば
FFT(高速フーリエ変換)を行うが、これに先立っ
て、フレーム分割回路108により、サンプル数を2の
べき乗、例えば図13の(A)に示すように512サン
プル毎に区切っている。ただし、後での信号処理を行い
易くするため、80サンプル毎に前進させている。
Next, for example, FFT (Fast Fourier Transform) is performed as frequency conversion to the low frequency side. Prior to this, the frame division circuit 108 makes the number of samples a power of 2, for example, (A) of FIG. As shown in FIG. 5, each sample is divided into 512 samples. However, in order to facilitate later signal processing, it is advanced every 80 samples.

【0172】次に、ハミング窓かけ回路109により、
長さ320サンプルのハミング窓をかける。このサンプ
ル数の320は、上記フレーム分割の際に80サンプル
ずつ前進させており、後の重畳加算によるフレーム合成
時に、図13の(B)に示すように4つの波形を重ねて
加算できるようにするため、80の4倍としているもの
である。
Next, the Hamming windowing circuit 109
A Hamming window of 320 samples in length is applied. This sample number 320 is advanced by 80 samples at the time of the frame division so that four waveforms can be added in an overlapping manner as shown in FIG. Therefore, it is set to four times 80.

【0173】次に、この長さ512サンプルのデータに
対して、FFT回路161によりFFT処理を行い、周
波数軸上のデータに変換する。
Next, the data of 512 samples in length is subjected to FFT processing by the FFT circuit 161, and converted into data on the frequency axis.

【0174】次に、周波数シフト回路162により、周
波数軸上でデータを他の位置あるいは他の帯域にシフト
あるいは移動させる。この周波数軸上でのシフトによっ
てサンプリング周波数を低下させる原理は、図14に示
すように、(A)の斜線部の高域側信号を(B)のよう
に低域側に移動し、これを(C)に示すようにダウンサ
ンプリングするものである。図14の(A)から(B)
への周波数軸上での移動の際に、fs/2 を中心に折り
返される成分については、互いに逆の移動方向となって
いる。これによって、サブバンドの帯域がfs/2n 以
内であれば、サンプリング周波数をfs/n に下げるこ
とができる。
Next, the frequency shift circuit 162 shifts or moves the data to another position or another band on the frequency axis. The principle of lowering the sampling frequency by the shift on the frequency axis is to move the high frequency side signal in the shaded area of (A) to the low frequency side as shown in (B), as shown in FIG. Down-sampling is performed as shown in (C). 14 (A) to (B)
The components that are folded back around fs / 2 when moving on the frequency axis are in opposite movement directions. As a result, the sampling frequency can be reduced to fs / n if the subband is within fs / 2n.

【0175】この周波数シフト回路162では、図15
に示すように、周波数軸上のデータの高域側に相当する
斜線部のデータを、低域側に相当する周波数軸上の位置
あるいは帯域にシフトあるいは移動させる処理を行えば
よい。具体的に、512サンプルの時間軸上のデータを
FFT処理して得られる周波数軸上の512個のデータ
に対して、113番目から239番目までの127個の
データを、1〜127番目の位置あるいは帯域に移動さ
せ、また273番目から399番目までの127個のデ
ータを、395〜511番目の位置あるいは帯域に移動
させる。このとき、周波数軸上の112番目のデータを
0番目の位置に移動させないことが重要である。これ
は、周波数領域の信号では、0番目は直流成分であり、
位相成分が無いため、この位置のデータは実数でなくて
はならず、一般に複素数である周波数成分は、ここには
入れられないからである。また、fs/2 を表す256
番目のデータ(一般にはN/2番目のデータ)も無効で
あり、ここは利用しない、すなわち、この場合の0〜4
kHzの範囲は、厳密には0<f<4kHzと表される範囲
のことである。
The frequency shift circuit 162 shown in FIG.
As shown in, the process of shifting or moving the shaded data corresponding to the high frequency side of the data on the frequency axis to the position or band on the frequency axis corresponding to the low frequency side may be performed. Specifically, with respect to 512 data on the frequency axis obtained by performing FFT processing on the data on the time axis of 512 samples, 127 pieces of data from the 113th to 239th positions are placed at positions 1 to 127. Alternatively, it is moved to the band, and 127 pieces of data from the 273rd to the 399th are moved to the 395th to 511th positions or bands. At this time, it is important not to move the 112th data on the frequency axis to the 0th position. This is because in the frequency domain signal, the 0th is the DC component,
Since there is no phase component, the data at this position must be a real number, and the frequency component, which is generally a complex number, cannot be included here. Also, 256 representing fs / 2
The second data (generally N / 2nd data) is also invalid and is not used, that is, 0 to 4 in this case.
Strictly speaking, the range of kHz is a range expressed as 0 <f <4 kHz.

【0176】次に、逆FFT回路163により逆FFT
処理して、周波数軸上のデータを時間軸上の信号に戻
す。この場合512サンプル毎に時間軸上の信号が得ら
れる。この512サンプル毎の時間軸信号を、重畳加算
回路166により図jの(B)に示すように80サンプ
ルずつオーバーラップさせ、重なっている部分を足し合
わせる。
Next, the inverse FFT circuit 163 performs inverse FFT.
By processing, the data on the frequency axis is returned to the signal on the time axis. In this case, a signal on the time axis is obtained every 512 samples. The time-axis signals for every 512 samples are overlapped by 80 samples by the superposition addition circuit 166 as shown in FIG. 7B, and the overlapping portions are added.

【0177】この重畳加算回路166から得られた信号
は、16kHzサンプリングで0〜4kHzに制限されてい
るので、ダウンサンプリング回路164によりダウンサ
ンプリング処理する。これにより周波数シフトされた8
kHzサンプリングで0〜4kHzの信号を得ることがで
き、この信号が出力端子169を介して取り出されて、
図1のLPC分析・量子化部130やLPC逆フィルタ
171に送られる。
Since the signal obtained from the superposition addition circuit 166 is limited to 0 to 4 kHz by 16 kHz sampling, it is downsampled by the downsampling circuit 164. 8 frequency shifted by this
A signal of 0 to 4 kHz can be obtained by kHz sampling, and this signal is taken out through the output terminal 169,
It is sent to the LPC analysis / quantization unit 130 and the LPC inverse filter 171 in FIG.

【0178】次に、デコード側での復元処理は、図16
に示す構成により実現できる。
Next, the restoration process on the decoding side is shown in FIG.
It can be realized by the configuration shown in.

【0179】この図16の構成は、上記図2のアップサ
ンプリング回路233以降の構成に相当しており、対応
する部分に同じ指示符号を付している。ただし、図2に
おいては、FFT処理の前にアップサンプリング処理を
行っているが、図16の例では、FFT処理の後にアッ
プサンプリング処理を行っている。
The structure of FIG. 16 corresponds to the structure of the upsampling circuit 233 and the subsequent parts of FIG. 2 described above, and corresponding parts are designated by the same reference numerals. However, although the upsampling process is performed before the FFT process in FIG. 2, the upsampling process is performed after the FFT process in the example of FIG. 16.

【0180】この図16において、端子241には、図
2の高域側LPC合成フィルタ232からの出力信号の
ような、8kHzサンプリングで0〜4kHzにシフトされ
ている高域側の信号が入力される。
In FIG. 16, a terminal 241 is supplied with a high-frequency side signal, such as the output signal from the high-frequency side LPC synthesis filter 232 in FIG. 2, which is shifted to 0 to 4 kHz by 8 kHz sampling. It

【0181】この信号は、フレーム分割回路242によ
り、フレーム長が256サンプルで前進分が80サンプ
ルの信号に区切られる。これは、エンコード側のフレー
ム分割と同様な理由からであるが、サンプリング周波数
が1/2となっているので、サンプル数も1/2となっ
ている。また、ハミング窓かけ回路243により、フレ
ーム分割回路242からの信号に長さ160サンプルの
ハミング窓がかけられることも、エンコード側と同様
(ただしサンプル数は1/2)である。
This signal is divided by the frame division circuit 242 into a signal having a frame length of 256 samples and an advance amount of 80 samples. This is for the same reason as the frame division on the encoding side, but since the sampling frequency is 1/2, the number of samples is also 1/2. Also, the Hamming window application circuit 243 applies a Hamming window having a length of 160 samples to the signal from the frame division circuit 242, similarly to the encoding side (however, the number of samples is 1/2).

【0182】次に、FFT回路234により長さ256
サンプルでFFT処理が施され、時間軸上の信号が周波
数軸上の信号に変換される。次のアップサンプリング回
路244においては、図15の(B)に示すようなゼロ
埋め処理を施すことにより、実質的にフレーム長が21
6サンプルから512サンプルになる。これは、図14
の(C)から(B)への変換に相当する。
Next, the FFT circuit 234 sets the length 256.
The FFT processing is performed on the sample, and the signal on the time axis is converted to the signal on the frequency axis. In the next up-sampling circuit 244, the frame length is effectively reduced to 21 by performing the zero padding processing as shown in FIG.
From 6 samples to 512 samples. This is shown in FIG.
Of (C) to (B).

【0183】次に、周波数シフト回路235により、周
波数軸上でデータを他の位置あるいは他の帯域にシフト
あるいは移動させることにより、+3.5kHzの周波数
シフトを行う。これは、図14の(B)から(A)への
変換に相当する。
Next, the frequency shift circuit 235 shifts or moves the data to another position or another band on the frequency axis to shift the frequency by +3.5 kHz. This corresponds to the conversion from (B) to (A) in FIG.

【0184】このようにして得られた周波数軸上の信号
を、逆FFT回路236により逆FFT処理することに
より、時間軸上の信号に戻す。この逆FFT回路236
からの信号は、16kHzサンプリングで3.5kHz〜
7.5kHzとなっている。
The signal on the frequency axis thus obtained is subjected to the inverse FFT processing by the inverse FFT circuit 236 to be returned to the signal on the time axis. This inverse FFT circuit 236
The signal from is 3.5kHz from 16kHz sampling
It is 7.5 kHz.

【0185】次の重畳加算回路237では、長さ512
サンプルのフレーム毎に、80サンプルずつオーバーラ
ップさせて足し合わせ、連続する時間軸信号に戻す。こ
のようにして得られた高域側信号は、加算器228で低
域側信号と加算され、出力端子229より取り出され
る。
In the next superposition addition circuit 237, the length 512
For each frame of samples, 80 samples are overlapped and added together to restore a continuous time axis signal. The high frequency side signal thus obtained is added to the low frequency side signal by the adder 228 and is taken out from the output terminal 229.

【0186】なお、このような周波数変換においては、
具体的な数値は上記の例に限定されず、シフトを行うバ
ンド数も1つに限定されない。
In such frequency conversion,
The specific numerical value is not limited to the above example, and the number of bands for shifting is not limited to one.

【0187】例えば、図17に示すように、16kHzサ
ンプリングで狭帯域信号を300Hz〜3.4kHz、広帯
域信号を0〜7kHzとする場合に、狭帯域に含まれない
低域0〜300Hzと、高域側の3.4kHz〜7kHzとの
内、高域側を300Hz〜3.9kHzに移動して低域側と
接触するように集めれば、0〜3.9kHzの信号とな
り、これも上述と同様にサンプリング周波数fs を1/
2の8kHzとすることができる。
For example, as shown in FIG. 17, when the narrow band signal is set to 300 Hz to 3.4 kHz and the wide band signal is set to 0 to 7 kHz by 16 kHz sampling, the low band 0 to 300 Hz not included in the narrow band and the high band are included. Of the 3.4kHz to 7kHz range, if you move the high range to 300Hz to 3.9kHz and collect it so that it contacts the low range, it becomes a signal of 0 to 3.9kHz, which is the same as above. 1 / sampling frequency fs
It can be 2 to 8 kHz.

【0188】これを一般化すれば、広帯域信号と、広帯
域信号の内部に収まる狭帯域信号とを多重化する場合、
広帯域信号から狭帯域信号を減算した残りの内の高域側
成分を低域側にシフトして、サンプリングレートを下げ
るわけである。
If this is generalized, when a wideband signal and a narrowband signal that fits inside the wideband signal are multiplexed,
The high band side component of the rest of the wide band signal obtained by subtracting the narrow band signal is shifted to the low band side to lower the sampling rate.

【0189】このように、任意の周波数から任意の周波
数のサブバンドを作ることができ、その周波数幅の総和
の2倍のサンプリング周波数で処理可能であり、アプリ
ケーションに柔軟に対応できる。
As described above, a subband of an arbitrary frequency can be created from an arbitrary frequency, processing can be performed at a sampling frequency twice the sum of the frequency widths, and the application can be flexibly handled.

【0190】また、低ビットレートで量子化誤差が大き
い場合、一般にQMFを利用すると分割周波数付近に発
生したはずの折り返しノイズも、上記周波数変換方法に
よれば回避できる、という利点もある。
Further, when the quantization error is large at a low bit rate, the aliasing noise, which should have been generated in the vicinity of the division frequency when the QMF is generally used, can be avoided by the frequency conversion method.

【0191】なお、本発明は上記実施の形態のみに限定
されるものではなく、例えば上記図1の音声符号化側
(エンコード側)の構成や、図2の音声復号化側(デコ
ード側)の構成については、各部をハードウェア的に記
載しているが、いわゆるDSP(ディジタル信号プロセ
ッサ)等を用いてソフトウェアプログラムにより実現す
ることも可能である。また、上記ベクトル量子化の代わ
りに、複数フレームのデータをまとめてマトリクス量子
化を施してもよい。さらに、本発明が適用される音声符
号化方法や復号化方法は、上記符号化復号化方法に限定
されるものではなく、種々の音声符号化復号化方法に適
用でき、用途としても、伝送や記録再生に限定されず、
ピッチ変換やスピード変換、規則音声合成、あるいは雑
音抑圧のような種々の用途に応用できることは勿論であ
る。
The present invention is not limited to the above-described embodiment, and for example, the configuration of the speech encoding side (encoding side) of FIG. 1 and the speech decoding side (decoding side) of FIG. Regarding the configuration, each unit is described as hardware, but it is also possible to realize it by a software program using a so-called DSP (digital signal processor) or the like. Also, instead of the vector quantization, the data of a plurality of frames may be collectively subjected to matrix quantization. Furthermore, the speech encoding method and the decoding method to which the present invention is applied are not limited to the above encoding / decoding method, but can be applied to various speech encoding / decoding methods, and can be used for transmission and Not limited to recording and playback,
Of course, it can be applied to various applications such as pitch conversion, speed conversion, regular speech synthesis, or noise suppression.

【0192】[0192]

【発明の効果】以上の説明から明らかなように、本発明
によれば、入力信号を帯域分割し、分割された帯域毎の
信号に対してそれぞれの帯域の信号特性に応じた互いに
異なる符号化を施しているため、レートの異なるデコー
ダの動作も可能であり、それぞれの帯域に最適の効率の
良い符号化が行え、符号化効率が向上する。
As is apparent from the above description, according to the present invention, the input signal is band-divided, and the signals for each divided band are encoded differently according to the signal characteristics of each band. By performing the above, it is possible to operate the decoders having different rates, and it is possible to perform the efficient and optimal coding for each band, thereby improving the coding efficiency.

【0193】上記帯域分割された帯域の低域側の信号に
対して短期予測を行って短期予測残差を求め、求められ
た短期予測残差に対して長期予測を行い、求められた長
期予測残差を直交変換することにより、高い符号化効率
が得られ、再生音の品質も優れている。
A short-term prediction is performed on the signal on the low frequency side of the band obtained by the band division to obtain a short-term prediction residual, a long-term prediction is performed on the obtained short-term prediction residual, and the obtained long-term prediction is performed. By orthogonally transforming the residual, high coding efficiency is obtained and the quality of reproduced sound is excellent.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る音声符号化方法の実施の形態が適
用される音声信号符号化装置の基本構成を示すブロック
図である。
FIG. 1 is a block diagram illustrating a basic configuration of an audio signal encoding device to which an embodiment of an audio encoding method according to the present invention is applied.

【図2】音声信号復号化装置の基本構成を示すブロック
図である。
FIG. 2 is a block diagram showing a basic configuration of a speech signal decoding device.

【図3】他の音声信号符号化装置の構成を示すブロック
図である。
FIG. 3 is a block diagram showing the configuration of another audio signal encoding device.

【図4】伝送される符号化データのビットストリームの
スケーラビリティを説明するための図である。
FIG. 4 is a diagram for explaining scalability of a bit stream of encoded data to be transmitted.

【図5】本発明が適用可能な符号化側のシステム全体を
概略的に示すブロック図である。
FIG. 5 is a block diagram schematically showing an entire encoding side system to which the present invention can be applied.

【図6】符号化、復号化の主要動作の周期及び位相関係
を説明するための図である。
FIG. 6 is a diagram for explaining a cycle and a phase relationship of main operations of encoding and decoding.

【図7】MDCT(モディファイド離散コサイン変換)
係数のベクトル量子化の構成例を示す図である。
FIG. 7: MDCT (Modified Discrete Cosine Transform)
It is a figure which shows the structural example of vector quantization of a coefficient.

【図8】ポストフィルタ出力にかけられる窓関数の例を
示す図である。
FIG. 8 is a diagram showing an example of a window function applied to a post filter output.

【図9】2種類のコードブックを有するベクトル量子化
装置の例を示す図である。
FIG. 9 is a diagram showing an example of a vector quantization device having two types of codebooks.

【図10】2種類のコードブックを有するベクトル量子
化装置の具体例を示す図である。
FIG. 10 is a diagram showing a specific example of a vector quantization device having two types of codebooks.

【図11】2種類のコードブックを有するベクトル量子
化装置の他の具体例を示す図である。
FIG. 11 is a diagram showing another specific example of the vector quantization device having two types of codebooks.

【図12】周波数変換のエンコーダ側の構成を示すブロ
ック図である。
FIG. 12 is a block diagram showing a configuration on the encoder side of frequency conversion.

【図13】周波数変換のデコーダ側の構成を示すブロッ
ク図である。
FIG. 13 is a block diagram showing a configuration of a frequency conversion decoder side.

【図14】フレーム分割及び重畳加算処理を説明するた
めの図である。
FIG. 14 is a diagram for explaining frame division and superposition addition processing.

【図15】周波数軸上のデータのシフト処理を示す図で
ある。
FIG. 15 is a diagram showing a shift process of data on the frequency axis.

【図16】周波数変換のデコーダ側の構成を示すブロッ
ク図である。
FIG. 16 is a block diagram showing a configuration of a frequency conversion decoder side.

【図17】周波数軸上での周波数シフトの他の例を示す
図である。
FIG. 17 is a diagram showing another example of frequency shift on the frequency axis.

【符号の説明】[Explanation of symbols]

111、171 LPC逆フィルタ 112、122 ピッチ逆フィルタ 113、123 MDCT(モディファイド離散コサイ
ン変換)回路 114、124 VQ(ベクトル量子化)回路 115、125 ピッチ分析回路 116、118、126 ピッチゲインVQ回路 130、180 LPC分析・量子化部
111, 171 LPC inverse filter 112, 122 Pitch inverse filter 113, 123 MDCT (Modified Discrete Cosine Transform) circuit 114, 124 VQ (Vector Quantization) circuit 115, 125 Pitch analysis circuit 116, 118, 126 Pitch gain VQ circuit 130, 180 LPC analysis / quantization unit

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H03M 7/30 9382−5K H03M 7/30 A (72)発明者 飯島 和幸 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification number Reference number within the agency FI Technical indication location H03M 7/30 9382-5K H03M 7/30 A (72) Inventor Kazuyuki Iijima Kitashinagawa, Shinagawa-ku, Tokyo 6th-7th 35th Sony Corporation

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 入力信号を帯域分割する帯域分割工程
と、 分割された帯域毎の信号に対してそれぞれの帯域の信号
特性に応じた互いに異なる符号化を施す工程とを有する
ことを特徴とする信号符号化方法。
1. A band division step of band-dividing an input signal, and a step of performing different encoding on the divided signals for each band according to the signal characteristics of each band. Signal coding method.
【請求項2】 上記帯域分割工程は、広帯域の入力音声
信号を電話帯域の信号と電話帯域よりも高域側の信号と
に少なくとも分割することを特徴とする請求項1記載の
信号符号化方法。
2. The signal encoding method according to claim 1, wherein said band dividing step divides at least a wide band input voice signal into a telephone band signal and a signal on a higher band side than the telephone band. .
【請求項3】 上記帯域分割された帯域の低域側の信号
に対して短期予測符号化と直交変換符号化とを組み合わ
せた符号化を施すことを特徴とする請求項1記載の信号
符号化方法。
3. The signal coding according to claim 1, wherein the signal on the low band side of the band-divided band is coded by combining short-term predictive coding and orthogonal transform coding. Method.
【請求項4】 上記帯域分割された帯域の低域側の信号
に対して短期予測を行って短期予測残差を求める短期予
測工程と、 求められた短期予測残差に対して長期予測を行って長期
予測残差を求める長期予測工程と、 求められた長期予測残差を直交変換する直交変換工程と
を有することを特徴とする請求項1記載の信号符号化方
法。
4. A short-term prediction step of performing a short-term prediction on a signal on the low-frequency side of the band-divided band to obtain a short-term prediction residual, and performing a long-term prediction on the obtained short-term prediction residual. The signal coding method according to claim 1, further comprising a long-term prediction step of obtaining a long-term prediction residual by performing an orthogonal transformation step of orthogonally transforming the obtained long-term prediction residual.
【請求項5】 上記直交変換工程により得られた直交変
換係数を周波数軸上で聴覚重み付け量子化する工程をさ
らに有することを特徴とする請求項4記載の信号符号化
方法。
5. The signal coding method according to claim 4, further comprising the step of perceptually weighting and quantizing the orthogonal transform coefficient obtained in the orthogonal transform step on a frequency axis.
【請求項6】 上記直交変換工程は、MDCT(モディ
ファイド離散コサイン変換)を用い、このときの変換長
を短くすると共に2のべき乗の大きさにすることを特徴
とする請求項4記載の信号符号化方法。
6. The signal code according to claim 4, wherein the orthogonal transform step uses MDCT (Modified Discrete Cosine Transform) to shorten the transform length and to make it a power of two. Method.
【請求項7】 上記帯域分割された帯域の高域側の信号
に対して短期予測符号化を施すことを特徴とする請求項
1記載の信号符号化方法。
7. The signal coding method according to claim 1, wherein short-term predictive coding is performed on the signal on the high frequency side of the band that has been divided.
【請求項8】 入力信号を帯域分割する帯域分割手段
と、 分割された帯域毎の信号に対してそれぞれの帯域の信号
特性に応じた互いに異なる符号化を施す符号化手段とを
有することを特徴とする信号符号化装置。
8. A band dividing means for dividing an input signal into bands, and an encoding means for performing different encoding on the divided signals for each band according to the signal characteristics of each band. And a signal encoding device.
【請求項9】 上記帯域分割手段は、広帯域の入力音声
信号を電話帯域の信号と電話帯域よりも高域側の信号と
に少なくとも分割することを特徴とする請求項8記載の
信号符号化装置。
9. The signal coding apparatus according to claim 8, wherein said band dividing means divides a wide band input voice signal into at least a telephone band signal and a signal on a higher band side than the telephone band. .
【請求項10】 上記符号化手段は、 上記帯域分割された帯域の低域側の信号に対して短期予
測を行って短期予測残差を求める短期予測手段と、 求められた短期予測残差に対して長期予測を行って長期
予測残差を求める長期予測手段と、 求められた長期予測残差を直交変換する直交変換手段と
を有することを特徴とする請求項8記載の信号符号化装
置。
10. The encoding means includes short-term prediction means for performing short-term prediction on a signal on the low frequency side of the band-divided band to obtain a short-term prediction residual, and the calculated short-term prediction residual. 9. The signal coding apparatus according to claim 8, further comprising: long-term prediction means for performing long-term prediction to obtain a long-term prediction residual, and orthogonal transformation means for orthogonally transforming the obtained long-term prediction residual.
JP7302199A 1995-10-26 1995-10-26 Signal coding method and device therefor Withdrawn JPH09127987A (en)

Priority Applications (11)

Application Number Priority Date Filing Date Title
JP7302199A JPH09127987A (en) 1995-10-26 1995-10-26 Signal coding method and device therefor
TW085112854A TW321810B (en) 1995-10-26 1996-10-21
AU70373/96A AU725251B2 (en) 1995-10-26 1996-10-23 Signal encoding method and apparatus
US08/736,507 US5819212A (en) 1995-10-26 1996-10-24 Voice encoding method and apparatus using modified discrete cosine transform
EP02017464A EP1262956B1 (en) 1995-10-26 1996-10-25 Signal encoding method and apparatus
EP96307742A EP0770985B1 (en) 1995-10-26 1996-10-25 Signal encoding method and apparatus
BR9605251A BR9605251A (en) 1995-10-26 1996-10-25 Process and apparatus for decoding signal portable radio terminal apparatus and method and apparatus for multiplexing an encoded signal
DE69631728T DE69631728T2 (en) 1995-10-26 1996-10-25 Method and apparatus for speech coding
KR1019960048692A KR970024629A (en) 1995-10-26 1996-10-25 Signal encoding method and apparatus
DE69634645T DE69634645T2 (en) 1995-10-26 1996-10-25 Method and apparatus for speech coding
CN96121964A CN1096148C (en) 1995-10-26 1996-10-26 Signal encoding method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7302199A JPH09127987A (en) 1995-10-26 1995-10-26 Signal coding method and device therefor

Publications (1)

Publication Number Publication Date
JPH09127987A true JPH09127987A (en) 1997-05-16

Family

ID=17906137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7302199A Withdrawn JPH09127987A (en) 1995-10-26 1995-10-26 Signal coding method and device therefor

Country Status (1)

Country Link
JP (1) JPH09127987A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998052188A1 (en) * 1997-05-15 1998-11-19 Matsushita Electric Industrial Co., Ltd. Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal
WO1999066497A1 (en) * 1998-06-15 1999-12-23 Nec Corporation Voice/music signal encoder and decoder
US6826526B1 (en) 1996-07-01 2004-11-30 Matsushita Electric Industrial Co., Ltd. Audio signal coding method, decoding method, audio signal coding apparatus, and decoding apparatus where first vector quantization is performed on a signal and second vector quantization is performed on an error component resulting from the first vector quantization
US6904404B1 (en) 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
WO2008072670A1 (en) * 2006-12-13 2008-06-19 Panasonic Corporation Encoding device, decoding device, and method thereof
WO2012169133A1 (en) * 2011-06-09 2012-12-13 パナソニック株式会社 Voice coding device, voice decoding device, voice coding method and voice decoding method
JP2017203844A (en) * 2016-05-10 2017-11-16 株式会社Jvcケンウッド Encoder, decoder and communication system

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826526B1 (en) 1996-07-01 2004-11-30 Matsushita Electric Industrial Co., Ltd. Audio signal coding method, decoding method, audio signal coding apparatus, and decoding apparatus where first vector quantization is performed on a signal and second vector quantization is performed on an error component resulting from the first vector quantization
US6904404B1 (en) 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
US7243061B2 (en) 1996-07-01 2007-07-10 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having a plurality of frequency bands
WO1998052188A1 (en) * 1997-05-15 1998-11-19 Matsushita Electric Industrial Co., Ltd. Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal
WO1999066497A1 (en) * 1998-06-15 1999-12-23 Nec Corporation Voice/music signal encoder and decoder
US6865534B1 (en) 1998-06-15 2005-03-08 Nec Corporation Speech and music signal coder/decoder
WO2008072670A1 (en) * 2006-12-13 2008-06-19 Panasonic Corporation Encoding device, decoding device, and method thereof
AU2007332508B2 (en) * 2006-12-13 2012-08-16 Iii Holdings 12, Llc Encoding device, decoding device, and method thereof
US8352258B2 (en) 2006-12-13 2013-01-08 Panasonic Corporation Encoding device, decoding device, and methods thereof based on subbands common to past and current frames
JP5328368B2 (en) * 2006-12-13 2013-10-30 パナソニック株式会社 Encoding device, decoding device, and methods thereof
KR101412255B1 (en) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 Encoding device, decoding device, and method therof
WO2012169133A1 (en) * 2011-06-09 2012-12-13 パナソニック株式会社 Voice coding device, voice decoding device, voice coding method and voice decoding method
JPWO2012169133A1 (en) * 2011-06-09 2015-02-23 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method
US9264094B2 (en) 2011-06-09 2016-02-16 Panasonic Intellectual Property Corporation Of America Voice coding device, voice decoding device, voice coding method and voice decoding method
JP2017203844A (en) * 2016-05-10 2017-11-16 株式会社Jvcケンウッド Encoder, decoder and communication system

Similar Documents

Publication Publication Date Title
EP1262956B1 (en) Signal encoding method and apparatus
TWI469136B (en) Apparatus and method for processing a decoded audio signal in a spectral domain
EP2041745B1 (en) Adaptive encoding and decoding methods and apparatuses
JP3557662B2 (en) Speech encoding method and speech decoding method, and speech encoding device and speech decoding device
KR100421226B1 (en) Method for linear predictive analysis of an audio-frequency signal, methods for coding and decoding an audiofrequency signal including application thereof
US7805314B2 (en) Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
JPH06118995A (en) Method for restoring wide-band speech signal
CN113223540B (en) Method, apparatus and memory for use in a sound signal encoder and decoder
CA2578610A1 (en) Voice encoding device, voice decoding device, and methods therefor
EP1111589B1 (en) Wideband speech coding with parametric coding of high frequency component
JPH08179796A (en) Voice coding method
WO2006049179A1 (en) Vector conversion device and vector conversion method
JP3344962B2 (en) Audio signal encoding device and audio signal decoding device
JPH10124092A (en) Method and device for encoding speech and method and device for encoding audible signal
JP3541680B2 (en) Audio music signal encoding device and decoding device
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JP2645465B2 (en) Low delay low bit rate speech coder
JP3248668B2 (en) Digital filter and acoustic encoding / decoding device
JPH09127985A (en) Signal coding method and device therefor
JPH09127987A (en) Signal coding method and device therefor
JP3297749B2 (en) Encoding method
JP2000132194A (en) Signal encoding device and method therefor, and signal decoding device and method therefor
JPH09127998A (en) Signal quantizing method and signal coding device
JPH09127994A (en) Signal coding method and device therefor
JPH09127986A (en) Multiplexing method for coded signal and signal encoder

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030107