JPH09127985A - Signal coding method and device therefor - Google Patents

Signal coding method and device therefor

Info

Publication number
JPH09127985A
JPH09127985A JP30212895A JP30212895A JPH09127985A JP H09127985 A JPH09127985 A JP H09127985A JP 30212895 A JP30212895 A JP 30212895A JP 30212895 A JP30212895 A JP 30212895A JP H09127985 A JPH09127985 A JP H09127985A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
signal
frequency
circuit
band
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP30212895A
Other languages
Japanese (ja)
Inventor
Kazuyuki Iijima
Atsushi Matsumoto
Masayuki Nishiguchi
Shiro Omori
士郎 大森
淳 松本
正之 西口
和幸 飯島
Original Assignee
Sony Corp
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Abstract

PROBLEM TO BE SOLVED: To perform a regeneration of high quality at a low bit rate by band- dividing an input signal and coding it by respective methods suitable to low-pass side and high-pass side SOLUTION: From the input signal from a terminal 101, a high-pass side signal is taken out by a LPF (low pass filter) 102 and a subtracter 106, and this signal is FFT-processed by a FFT(fast Fourier-transformation) circuit 161, and shifted to a low-pass side band by a frequency shifting circuit. The signal reverse-FFT processed by a reverse FFT circuit 163 is transmitted to a LPC(linear predictive coding) reverse filter circuit 171 and subjected to predictive coding processing, whereby the predictive coding processing can be realized at low sampling frequency.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、広帯域音声信号のような入力信号を帯域分割して符号化する信号符号化方法及び装置に関する。 The present invention relates to relates to a signal encoding method and apparatus for encoding and band dividing an input signal such as a wideband speech signal.

【0002】 [0002]

【従来の技術】オーディオ信号(音声信号や音響信号を含む)の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行うような符号化方法が種々知られている。 BACKGROUND ART Audio signals statistical properties and human coding methods such as characteristics of the audibility by utilizing the performing signal compression in the time domain and frequency domain (audio signal or comprises an acoustic signal) are known various ing. この符号化方法としては、 As the encoding method,
大別して時間領域での符号化、周波数領域での符号化、 Encoding in the time domain roughly, encoding in the frequency domain,
分析合成符号化等が挙げられる。 Analysis synthesis encoding.

【0003】音声信号等の高能率符号化の例として、ハーモニック(Harmonic)符号化、MBE(Multiband Ex [0003] Examples of high-efficiency encoding of speech signals, a harmonic (Harmonic) coding, MBE (Multiband Ex
citation: マルチバンド励起)符号化等のサイン波分析符号化や、SBC(Sub-band Coding:帯域分割符号化)、LPC(Linear Predictive Coding: 線形予測符号化)、あるいはDCT(離散コサイン変換)、MDC citation: multi-band excitation) sinusoidal analysis encoding such as encoding and, SBC (Sub-band Coding: sub-band coding), LPC (Linear Predictive Coding: linear predictive coding), or DCT (Discrete Cosine Transform), MDC
T(モデファイドDCT)、FFT(高速フーリエ変換)等が知られている。 T (Modefai de DCT), FFT (Fast Fourier Transform) and the like are known.

【0004】 [0004]

【発明が解決しようとする課題】ところで、従来において、広帯域信号を符号化する場合、帯域分割を行いサブバンド符号化を行う方法が存在していた。 [SUMMARY OF THE INVENTION Incidentally, in the conventional case of encoding a broadband signal, a method of performing subband coding performs band division was present. 特に、低域側と高域側とに2分割する場合、サンプリング周波数fs/ In particular, if the two divided into low frequency side and high frequency side, the sampling frequency fs /
4で分割を行う方法が一般的である。 4 a method of performing division is generally in. このfs/4の周波数で分割した後、高域側についてはダウンサンプリングが行われる。 After splitting the frequency of fs / 4, down sampling is performed for the high frequency side. こうすることで、高域周波数成分がそのまま低域側にエイリアシングとして折り返されるので、低域側の変換された信号として扱うことができたのである。 By so doing, the high frequency component is folded as aliasing in the low-frequency side as is was able to treat a converted signal of the low-frequency side.

【0005】ところが、fs/4の周波数で分割できない場合においては、この方法をとることができなかった。 [0005] However, in a case that can not be divided by the frequency of fs / 4 could not take this method.
低域側の信号をfs/2で再生することをも考えると、低域側はfs/4の周波数までは伸びていない。 Also considering that a signal is reproduced in the low-frequency side with fs / 2, the low-frequency side do not extend up to the frequency of fs / 4. 従って、高域側でこの部分をもカバーしなくてはならない。 Therefore, it must also not cover this part in the high frequency side.

【0006】また、近年において、そのような帯域で分割される音声/楽音信号を符号化して、低域側信号を符号化したものと重ねてスケーラビリティを持つビットストリームを作成する方法が望まれている。 Further, in recent years, such an audio / tone signal divided by the band by coding and how to create a bit stream with a scalable superimposed as a low-frequency side signal obtained by coding is desired there.

【0007】そこで、本発明は、このような実情に鑑みてなされたものであり、入力信号を帯域分割し、低域側と高域側とでそれぞれ適した方法で符号化することを可能にする信号符号化方法及び信号符号化装置を提供することを目的とする。 [0007] The present invention has been made in view of such circumstances, and band dividing an input signal, to allow for the coding in a manner suitable respectively the low frequency side and high frequency side and to provide a signal coding method and signal encoding apparatus.

【0008】 [0008]

【課題を解決するための手段】本発明に係る信号符号化方法は、上述した課題を解決するために、入力信号を帯域分割し、分割された少なくとも1つの高域側の信号を低域側に周波数変換し、低域側に変換された信号のサンプリングレートを低下させ、サンプリングレートが低下させられた信号を予測符号化することを特徴としている。 Means for Solving the Problems] signal coding method according to the present invention, in order to solve the problems described above, band-dividing an input signal, the signal of the divided at least one high frequency side lower range a frequency conversion, to reduce the sampling rate of the converted signal to the low frequency side, the sampling rate is characterized by predictive coding a signal which is reduced.

【0009】また、本発明に係る信号符号化装置は、上述した課題を解決するために、入力信号を帯域分割する帯域分割手段と、分割された少なくとも1つの高域側の信号を低域側に周波数変換する周波数変換手段と、低域側に変換された信号のサンプリングレートを低下させるサンプリングレート低下手段と、サンプリングレートが低下させられた信号を予測符号化する手段とを有することを特徴としている。 [0009] The signal encoding apparatus according to the present invention, in order to solve the problems described above, a band division means for band-dividing an input signal, the signal of the divided at least one high frequency side lower range as features and frequency converting means for frequency converting, in that it has a sampling rate reduction means for reducing the sampling rate of the signals converted to the low frequency side, and means for sampling rate is prediction coding a signal which is reduced to there.

【0010】 [0010]

【発明の実施の形態】以下、本発明に係る好ましい実施の形態について説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, will be described a preferred embodiment of the present invention. 先ず、図1は、本発明に係る信号符号化方法の実施の形態が適用された広帯域音声信号の符号化装置を示している。 First, FIG. 1, an embodiment of the signal encoding method according to the present invention indicates an encoding device applied wideband speech signal.

【0011】ここで、図1の符号化装置の基本的な考え方は、入力信号を複数の帯域に分割して、分割された帯域毎の信号に対してそれぞれの帯域の信号特性に応じた互いに異なる符号化を施すものである。 [0011] Here, the basic idea of ​​the encoding apparatus of FIG. 1 divides the input signal into a plurality of bands, each other in accordance with the signal characteristics of each band with respect to divided signals in the respective bands it is intended to apply a different encoding. 具体的には、広帯域の入力音声信号を複数の帯域、例えば音声として充分な明瞭度を得られる電話帯域と、この電話帯域よりも高域側の帯域とに分割している。 Specifically, wideband input speech signal a plurality of bands, the telephone band obtained sufficient clarity example as speech, is divided into the band at the side higher than the telephone band. 低域側の電話帯域の信号については、LPC(線形予測符号化)分析等の短期予測の後にピッチ予測等の長期予測を行った上で直交変換を施し、この変換後の係数を聴覚重み付けベクトル量子化しており、また、LPC係数等の短期予測係数を表現するパラメータ、ピッチやピッチゲイン等の長期予測に関連した情報についても量子化している。 For the telephone band signal in a low frequency side is subjected to orthogonal transformation after performing long-term prediction, such as pitch prediction after short-term prediction, such as LPC (linear predictive coding) analysis, perceptual weighting vector coefficients of the converted are quantized, also parameters representing short-term prediction coefficients, such as LPC coefficients, are quantized also information related to long-term prediction, such as pitch or pitch gain. 電話帯域よりも高域の信号については、短期予測したものをそのまま時間軸上でベクトル量子化している。 The high-frequency signal than the telephone band, and vector quantizing those short-term prediction as time axis with.

【0012】上記直交変換としてMDCT(モディファイド離散コサイン変換)を用い、このときの変換長を短くすることでベクトル量子化の重み付けを容易に行い、 [0012] Using MDCT (Modified Discrete Cosine Transform) as the orthogonal transform, easily performs weighting vector quantization by shortening the conversion length of this time,
さらにこの変換長を2 N 、すなわち2のべき乗の大きさにすることでFFT(高速フーリエ変換)を用いた高速化を可能としている。 And further the transformation length 2 N, i.e. provide faster using FFT (fast Fourier transform) by the magnitude of the power of 2 and. また、上記短期予測の残差を算出し、直交変換係数をベクトル量子化する際の重み算出するためのLPC係数は(ポストフィルタについても)、 Moreover, to calculate the residual of said short-term prediction, LPC coefficients for calculating the weight at the time of vector quantization of the orthogonal transform coefficients (also post-filter),
現フレーム内で求められたものと過去のフレームで求められたものとを滑らかに補間したものを用い、各分析サブフレームで最適なLPC係数を用いている。 Used after smoothly interpolate to that obtained in the previous frame and those found in the current frame, and using the optimum LPC coefficients for each analysis subframe. また、上記長期予測を行う場合、1フレームに複数回の予測又は補間を行い、それらのピッチラグ、ピッチゲインをそのまま、あるいは差分をとった上で量子化し、あるいは補間方法を示すフラグを伝送している。 Also, when performing the long-term prediction is performed a plurality of times of prediction or interpolation frame, their pitch lag and quantizes on intact pitch gain, or taking the difference, or by transmitting a flag indicating the interpolation method there. さらに、予測回数(頻度)の増加に対して、分散の小さくなる予測残差について、それらの直交変換係数の差を量子化するマルチステージ(多段)ベクトル量子化を行うか、あるいは分割された帯域の内、ある1つの帯域に対するパラメータのみを用い、1つのエンコードビットストリームの全体あるいは一部分により、レートの異なる複数のデコード動作を可能としている。 Further, with an increase in the predicted number of times (frequency), the smaller prediction residual dispersion, or the difference between their orthogonal transform coefficients performs multistage (multi-stage) vector quantization for quantizing, or divided band of, using only the parameters for a single band, by all or a portion of one of the encoded bit stream, thereby enabling a plurality of decoding operations with different rates.

【0013】以下、図1を参照しながら説明する。 [0013] The following will be described with reference to FIG. 1. 図1 Figure 1
の入力端子101には、例えばサンプリング周波数Fs The input terminal 101 of, for example, the sampling frequency Fs
が16kHzで0〜8KHz程度の広帯域音声信号が供給されている。 There 0~8KHz about wideband speech signal is supplied at 16kHz. この入力端子101からの広帯域音声信号は、ローパスフィルタ102及び減算器106により低域側、例えば0〜3.8kHz程度のいわゆる電話帯域の信号と、高域側、例えば3.8kHz〜8kHzの信号とに帯域分割される。 Wideband audio signal from the input terminal 101, the low-frequency side by a low-pass filter 102 and the subtractor 106, for example, a so-called signal in the telephone band of about 0~3.8KHz, the high frequency side, for example 3.8kHz~8kHz signal It is band-divided into door. 低域側は、サンプリング周波数変換器103により、サンプリング定理を満たす範囲で間引くことにより、例えば8kHzサンプリングの信号にしておく。 Lower frequency, the sampling frequency converter 103, by thinning a range satisfying the sampling theorem, for example keep the 8kHz sampling signal.

【0014】低域側での処理としては、先ず、LPC分析・量子化部130により、例えば1ブロック256サンプル程度の分析長によりハミング窓かけをした上で、 [0014] The treatment at a low-frequency side, firstly, the LPC analysis quantization unit 130, for example, in terms of the Hamming windowing Analysis length of approximately one block 256 samples,
10次程度のLPC係数、すなわちαパラメータを算出し、LPC逆フィルタ111によりLPC残差を求めている。 10 following the order of the LPC coefficients, i.e. to calculate the α parameter, seeking LPC residuals by the inverted LPC filter 111. このLPC分析の際には、分析の単位となる1ブロック256サンプルの内の96サンプルを次のブロックとオーバーラップさせることにより、フレーム間隔すなわちフレームインターバルは160サンプルとなる。 During this LPC analysis, by the next block overlap the 96 samples of one block 256 samples as a unit of analysis, frame interval or frame interval becomes 160 samples.
このフレーム間隔は、8kHzサンプリングで20msec This frame interval is, 20 msec at 8kHz sampling
になる。 become. また、このLPC分析・量子化部130では、 Further, in the LPC analysis quantization unit 130,
LPC係数であるαパラメータをLSP(線スペクトル対)パラメータに変換して量子化したものを伝送するようにしている。 And so as to transmit those quantized by converting α parameter is a LPC coefficient LSP (line spectrum pair) as a parameter.

【0015】すなわち、LPC分析・量子化部130において、サンプリング周波数変換器103からの低域側信号が入力されるLPC分析回路132は、入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求めている。 [0015] That is, in the LPC analysis quantization unit 130, the LPC analysis circuit 132 of the low-range side signals from the sampling frequency converter 103 is input, Hamming 256 of about sample length of the input signal waveform as one block over the window, seeking linear prediction coefficients, the so-called α parameter by autocorrelation method. データ出力の単位となるフレーミングの間隔は、例えば160サンプルで20 The framing interval as a data outputting unit is for example 160 samples 20
msec である。 It is msec.

【0016】LPC分析回路132からのαパラメータは、α→LSP変換回路133に送られて、線スペクトル対(LSP)パラメータに変換される。 [0016] alpha-parameter from the LPC analysis circuit 132 is sent to the alpha → LSP conversion circuit 133 for conversion into line spectrum pair (LSP) parameters. これは、直接型のフィルタ係数として求まったαパラメータを、例えば10個、すなわち5対のLSPパラメータに変換する。 This converts the α parameter, as found by direct type filter coefficient, into for example, ten, that is five pairs of the LSP parameters. 変換は例えばニュートン−ラプソン法等を用いて行う。 Conversion, for example, the Newton - carried out using Raphson method or the like. このLSPパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。 This conversion into LSP parameters is that the LSP parameters are superior in interpolation characteristics to the α parameter.

【0017】α→LSP変換回路133からのLSPパラメータは、LSP量子化器134によりベクトル量子化あるいはマトリクス量子化される。 The LSP parameters from the alpha → LSP conversion circuit 133 are vector quantization or matrix quantization by LSP quantizer 134. このとき、フレーム間差分をとってからベクトル量子化、あるいは、複数フレーム分をまとめてマトリクス量子化してもよい。 At this time, the vector quantization from taking the difference between frames, or may be matrix quantization together multiple frames. ここでは、20msec を1フレームとし、20msec 毎に算出されるLSPパラメータを2フレーム分まとめてマトリクス量子化している。 Here, 20 msec and a frame, and matrix quantization together two frames of LSP parameters, calculated every 20 msec.

【0018】このLSP量子化器134からの量子化出力、すなわちLSPベクトル量子化のインデクスは、端子131を介して取り出され、また量子化済みのLSP The index of the quantized output, i.e. LSP vector quantization from the LSP quantizer 134 is taken out via a terminal 131, also quantized the LSP
ベクトルあるいは逆量子化出力は、LSP補間回路13 Vector, or inverse quantization output, LSP interpolation circuit 13
6に送られる。 6 is sent to.

【0019】LSP補間回路136は、LSP量子化器134で上記20msec 毎にベクトル量子化されたLS The LSP interpolation circuit 136, LS that in LSP quantizer 134 are vector quantization for each of the 20msec
Pのベクトルの前フレームと現フレームとの組を補間し、後の処理で必要となるレートにするためのものであり、この例では、8倍のレートと5倍のレートにしている。 Interpolating the set of the previous frame and the current frame of the P vector, after it is for the rate required by the process of, in this example, is eight times the rate and five times the rate. 8倍レートでは、2.5msec 毎にLSPベクトルが更新されるようにする。 The 8-fold rate, the LSP vector is updated every 2.5 msec. これは、残差波形を分析合成処理すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、LPC係数が20m This is because when analysis and synthesis processes residual waveform, because the envelope of the synthetic waveform presents an extremely smooth waveform, LPC coefficients 20m
sec 毎に急激に変化すると異音を発生することがあるからである。 It changed abruptly every sec is because there may occur abnormal noise. すなわち、2.5msec 毎にLPC係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。 That is, if the LPC coefficient for each 2.5msec changed gradually, it is possible to prevent the occurrence of such abnormal noise.

【0020】このような補間が行われた2.5msec 毎のLSPベクトルを用いて入力音声の逆フィルタリングを実行するために、LSP→α変換回路137により、 [0020] To perform the inverse filtering of the input speech using the LSP vectors of each 2.5msec such interpolation is performed by LSP → alpha conversion circuit 137,
LSPパラメータを例えば10次程度の直接型フィルタの係数であるαパラメータに変換する。 It converts the LSP parameters to the α parameter is a coefficient of a direct type filter of, for example, about 10 primary. このLSP→α The LSP → α
変換回路137からの出力は、上記LPC残差を求めるためのLPC逆フィルタ回路111に送られ、このLP The output from the conversion circuit 137 is sent to an LPC inverted filter circuit 111 for finding the LPC residuals, the LP
C逆フィルタ111では、2.5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。 In C the inverse filter 111 which then performs inverse filtering by α parameter updated every 2.5 msec, so as to obtain the smooth output.

【0021】また、LSP補間回路136で5倍レートで補間された4msec 毎のLSP係数は、LSP→α変換回路138に送られてαパラメータに変換され、MD Further, LSP coefficient for each 4msec interpolated five times rate LSP interpolation circuit 136 is converted to alpha parameter is sent to LSP → alpha conversion circuit 138, MD
CT係数の量子化に使用する重み計算のためのVQ(ベクトル量子化)重み計算回路139に送られる。 VQ (vector quantization) for weight calculation to be used in quantization of the CT coefficients are sent to the weight calculation circuit 139.

【0022】LPC逆フィルタ111からの出力は、長期予測であるピッチ予測のためのピッチ逆フィルタ11 The output from the LPC inverse filter 111, a pitch reverse filter 11 for pitch prediction is long-term prediction
2及び122に送られる。 It is sent to the 2 and 122.

【0023】次に、長期予測について説明する。 [0023] Next, a description will be given long-term prediction. 長期予測は、ピッチ分析により求められたピッチ周期あるいはピッチラグ分だけ時間軸上でずらした波形を元の波形から減算してピッチ予測残差を求めることにより行っており、この例では3点ピッチ予測によって行っている。 Long-term prediction is performed by finding the pitch prediction residuals by subtracting a waveform displaced on only the time axis pitch period or pitch lag fraction obtained by the pitch analysis from the original waveform, in this example three pitch prediction It is carried out by. なお、ピッチラグとは、サンプリングされた時間軸データのピッチ周期に対応するサンプル数のことである。 Note that the pitch lag is that the number of samples corresponding to the pitch period of the time axis data sampled.

【0024】すなわち、ピッチ分析回路115では1フレームに1回の割合、すなわち分析長が1フレームでピッチ分析が行われ、ピッチ分析結果の内のピッチラグL [0024] That is, a rate of once per frame in the pitch analysis circuit 115, that the analysis length pitch analysis is performed in one frame, the pitch lag of the pitch analysis results L
1はピッチ逆フィルタ112及び出力端子142に送られ、ピッチゲインはピッチゲインVQ(ベクトル量子化)回路116に送られる。 1 is sent to pitch inverted filter 112 and an output terminal 142, the pitch gain is sent to a pitch gain VQ (vector quantization) circuit 116. ピッチゲインVQ回路11 Pitch gain VQ circuit 11
6では、上記3点予測に対応する3点でのピッチゲインがベクトル量子化され、コードブックインデクスg 1が出力端子143より取り出され、代表値ベクトルあるいは逆量子化出力がピッチ逆フィルタ115、減算器11 In 6, a pitch gain at three points corresponding to the 3-point prediction are vector quantized, codebook index g 1 is the taken out from an output terminal 143, a representative value vector or a dequantization output is the pitch inverted filter 115, is subtracted vessel 11
7、加算器127にそれぞれ送られる。 7 and sent to adders 127. ピッチ逆フィルタ112は、上記ピッチ分析結果に基づいて3点ピッチ予測されたピッチ予測残差を出力する。 Pitch inverse filter 112 outputs the 3-point pitch prediction pitch prediction residual based on the pitch analysis results. このピッチ予測残差は、直交変換手段である例えばMDCT回路113 The pitch prediction residual is the orthogonal transform means such as MDCT circuits 113
に送られ、MDCT処理された後、VQ(ベクトル量子化)回路114により聴覚重み付けベクトル量子化される。 Sent to, after being MDCT processed and perceptual weighting vector quantizer by VQ (vector quantization) circuit 114. このVQ回路114では、VQ重み計算回路139 In the VQ circuit 114, VQ weighting calculation circuit 139
からの出力により聴覚重み付けされたベクトル量子化が施され、その出力であるインデクスIdxVq 1は、出力端子141より取り出される。 Hearing weighted vector quantization is performed by the output from the index IdxVq 1 which is the output is taken out from an output terminal 141.

【0025】またこの例においては、予測精度を高めるために、さらに別系統のピッチ予測系となるピッチ逆フィルタ122、ピッチ分析回路124及びピッチゲインVQ回路126を設けている。 [0025] In this example, in order to improve the prediction accuracy, the pitch inverted filter 122 becomes yet another system of the pitch prediction system is provided with a pitch analysis circuit 124 and the pitch gain VQ circuit 126. すなわち、上記各ピッチ分析中心の中間位置にも分析中心を置くようにして、ピッチ分析回路125により1/2フレーム周期で分析を行うようにしている。 In other words, so as to put even analysis center to an intermediate position of each pitch analysis center, and to perform the analysis in half-frame period by the pitch analysis circuit 125. ピッチ分析回路125からのピッチラグL 2はピッチ逆フィルタ122及び出力端子14 Pitch lag L 2 is a pitch inverted filter 122 and an output terminal 14 from the pitch analysis circuit 125
5に、ピッチゲインはピッチゲインVQ(ベクトル量子化)回路126にそれぞれ送られる。 5, the pitch gain is sent respectively to the pitch gain VQ (vector quantization) circuit 126. ピッチゲインVQ Pitch gain VQ
回路126では、3点のピッチゲインベクトルをベクトル量子化して量子化出力であるピッチゲインのインデクスg 2を出力端子144に送り、その代表ベクトルあるいは逆量子化出力を減算器117に送っている。 In circuit 126, the pitch gain vector of three points by vector quantization sends an index g 2 of the pitch gain which is quantized output to the output terminal 144, and sent the representative vector or the inverse quantization output to the subtractor 117. ここで、元のフレーム周期の分析中心の位置でのピッチゲインは、ピッチゲインVQ回路116からのピッチゲインに近い値と考えられるから、この位置でのピッチゲインについては、ピッチゲインVQ回路116、126からの各逆量子化出力の差を減算器117でとって、これをピッチゲインVQ回路118でベクトル量子化して得られるピッチゲイン差分のインデクスg 1dを出力端子14 Here, a pitch gain at the position of the analysis center of the original frame period, be considered that close to the pitch gain from the pitch gain VQ circuit 116, the pitch gain at this position, the pitch gain VQ circuit 116, the difference between the inverse quantization output from 126 is taken by the subtracter 117, an output terminal 14 an index g 1d of the pitch gain difference obtained which was the vector quantization by the pitch gain VQ circuit 118
6に送っている。 It is sent to 6. このピッチゲイン差分の代表ベクトルあるいは逆量子化出力を、加算器127に送り、ピッチゲインVQ回路126からの代表ベクトルあるいは逆量子化出力と加算したものをピッチゲインとしてピッチ逆フィルタ122に送っている。 The representative vectors or dequantized outputs of the pitch gain difference is sent to the adder 127, and sent to the pitch inverted filter 122 as the pitch gain obtained by adding the representative vector or the inverse quantization output from the pitch gain VQ circuit 126 . なお、出力端子143から得られるピッチゲインのインデクスg 2は、上記中間位置でのピッチゲインのインデクスである。 Incidentally, the index g 2 of the pitch gain obtained from the output terminal 143 is an index of a pitch gain at the intermediate position. ピッチ逆フィルタ122からのピッチ予測残差は、MDCT回路1 Pitch prediction residuals from the pitch inverted filter 122, MDCT circuits 1
23でMDCT処理され、これが減算器128に送られて、VQ(ベクトル量子化)回路114からの代表ベクトルあるいは逆量子化出力が減算され、その差分がVQ 23 is MDCT processing, which is sent to a subtractor 128, VQ representative vectors or dequantized outputs of the vector quantization () circuit 114 is subtracted, the difference is VQ
回路124に送られてベクトル量子化され、インデクス Is vector quantization is sent to the circuit 124, the index
IdxVq2が出力端子147に送られる。 IdxVq2 is sent to the output terminal 147. このVQ回路は、 This VQ circuit,
VQ重み計算回路139からの出力により聴覚重み付きのベクトル量子化を施す。 The output from the VQ weighting calculation circuit 139 performs a vector quantization of the perceptually weighted.

【0026】次に、高域側の信号処理について説明する。 Next, a description will be given of signal processing the high frequency side.

【0027】この高域側の信号処理は、基本的に、入力信号を帯域分割し、分割された少なくとも1つの高域側の信号を低域側に周波数変換し、低域側に変換された信号のサンプリングレートを低下させて、サンプリングレートが低下させられた信号を予測符号化するようにしている。 The signal processing of the high band side is essentially band-dividing an input signal, the signal of the divided at least one high frequency side frequency conversion to a low frequency side, it is converted to the low frequency side by reducing the sampling rate of a signal, the sampling rate is to be predictive coding a signal which is reduced.

【0028】図1の入力端子101に供給された広帯域信号が減算器106に入力され、この広帯域信号から、 The wideband signal supplied to the input terminal 101 of FIG. 1 is input to the subtractor 106, from the wideband signal,
LPF(ローパスフィルタ)102により取り出された低域側の信号、例えば0〜3.8kHz程度のいわゆる電話帯域の信号、が差し引かれる。 LPF low frequency side of the signal extracted by the (low-pass filter) 102, for example so-called telephone-band signal of about 0~3.8KHz, is subtracted. これによって、減算器106からは、高域側の信号、例えば3.8kHz〜8k Thus, the subtractor 106, the high frequency side of the signal, for example 3.8kHz~8k
Hzの信号が出力される。 Hz signal is output. ただし、現実のLPF102の特性等により、減算器106からの出力には、3.8k However, the characteristics of the actual LPF 102, the output from the subtractor 106, 3.8K
Hz以下の成分もわずかながら残っており、高域側の信号処理は、3.5kHz以上、あるいは3.4kHz以上の成分に対して行うようにしている。 Hz following components are also remains slightly, the signal processing of the high band side is to perform with respect to 3.5kHz or more, or 3.4kHz or more components.

【0029】この高域側の信号は、減算器106からの例えば3.5kHz〜8kHzの4.5kHzの周波数幅を持つが、ダウンサンプリング等により周波数を低域側にシフトあるいは変換して信号処理を行うため、例えば4k [0029] The signal of the high band side is having a frequency width of 4.5kHz for example 3.5kHz~8kHz from the subtracter 106, the signal processing by shifting or converting the frequency by the down-sampling or the like to the low frequency side In order to carry out, for example 4k
Hz幅まで狭めることが必要とされる。 It is necessary to narrow until Hz wide. ここで、後の低域側との合成を考慮し、3.5kHz〜4kHz付近は聴感上敏感であるので、ここをカットせずに、音声信号の性質として成分あるいはパワーも少なく聴感上影響の少ない7.5kHz〜8kHzの0.5kHz分をLPFあるいはB Here, considering the combination of the low-frequency side after the vicinity 3.5kHz~4kHz since a perceptually sensitive, here without cutting, component or power also reduced the audibility influence the nature of the speech signal LPF or B a 0.5kHz component less 7.5kHz~8kHz
PF(バンドパスフィルタ)107によりカットする。 To cut off by the PF (the band-pass filter) 107.

【0030】次に、低域側への周波数変換を行うが、この例では、直交変換手段、例えばFFT(高速フーリエ変換)回路161を用いて周波数軸上のデータに変換し、この周波数軸上のデータを周波数シフト回路162 [0030] Next, the frequency conversion to a lower frequency, in this example, orthogonal transform means, for example, FFT (fast Fourier transform) circuit 161 and converted into data on the frequency axis by using, on the frequency axis frequency of the data shift circuit 162
によりシフトした後、逆直交変換手段である逆FFT回路164により逆FFT処理することにより実現している。 Is realized by the after shifting inversely FFT processing by the inverse FFT circuit 164 is an inverse orthogonal transformation unit by.

【0031】逆FFT回路164からは、入力信号の高域側の例えば3.5kHz〜7.5kHzの信号が、0〜4 [0031] From the inverse FFT circuit 164, the signal of the high frequency side, for example 3.5kHz~7.5kHz of the input signal, 0-4
kHzの低域側に変換された信号が取り出される。 Converted signal to a low frequency side of kHz is extracted. この信号はサンプリング周波数が8kHzで表現できるので、ダウンサンプリング回路164によりダウンサンプリングしてサンプリング周波数8kHzの3.5kHz〜7.5k This signal is the sampling frequency can be expressed by 8kHz, 3.5KHz~7.5K sampling frequency 8kHz and down-sampled by a down-sampling circuit 164
Hzの帯域の信号とする。 The band of the signal Hz. このダウンサンプリング回路1 The down-sampling circuit 1
64からの出力は、LPC逆フィルタ171及びLPC The output from 64, LPC inverse filter 171 and an LPC
分析・量子化部180のLPC分析回路182にそれぞれ送られる。 Each is sent to the LPC analysis circuit 182 of the analysis quantization unit 180.

【0032】LPC分析・量子化部180は、上記低域側のLPC分析・量子化部130とほぼ同様な構成を有しているため、簡単に説明する。 The LPC analysis quantization unit 180, because it has a similar construction as the LPC analysis quantization unit 130 of the low-frequency side will be described briefly.

【0033】すなわち、LPC分析・量子化部180において、ダウンサンプリング回路164からの低域変換された信号が入力されるLPC分析回路182は、入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、例えば自己相関法により線形予測係数、いわゆるαパラメータを求めている。 [0033] That is, in the LPC analysis quantization unit 180, the LPC analysis circuit 182 of the low-frequency converted signal from the down-sampling circuit 164 is input, a 256 length of about samples of the input signal waveform as one block over Hamming window, for example, asking the linear prediction coefficients, the so-called α parameter by autocorrelation method. LPC分析回路182からのαパラメータは、α→LSP変換回路183に送られて、線スペクトル対(LSP)パラメータに変換される。 alpha-parameter from the LPC analysis circuit 182 is sent to alpha → LSP conversion circuit 183 for conversion into line spectrum pair (LSP) parameters. α→LSP変換回路183からのL α → L from the LSP conversion circuit 183
SPパラメータは、LSP量子化器184によりベクトル量子化あるいはマトリクス量子化される。 SP parameters are vector quantization or matrix quantization by LSP quantizer 184. このとき、 At this time,
フレーム間差分をとってからベクトル量子化してもよい。 It may be a vector quantization from taking the difference between frames. あるいは、複数フレーム分をまとめてマトリクス量子化してもよい。 Alternatively, it may be matrix quantization together multiple frames. ここでは、20msec を1フレームとし、20msec 毎に算出されるLSPパラメータをベクトル量子化している。 Here, 20 msec and a frame is vector-quantized to LSP parameters, calculated every 20 msec.

【0034】このLSP量子化器184からの量子化出力、すなわち高域側信号のLSPベクトル量子化のインデクスLSPidx Hは、端子181を介して取り出され、また量子化済みのLSPベクトルあるいは逆量子化出力は、LSP補間回路186に送られる。 The quantized output from this LSP quantizer 184, that is the index LSPidx H of LSP vector quantization of the high band side signal is taken out through the terminal 181, also quantized in LSP vector or reverse quantization the output is sent to an LSP interpolation circuit 186.

【0035】LSP補間回路186は、LSP量子化器184で上記20msec 毎にベクトル量子化されたLS The LSP interpolation circuit 186, LS that in LSP quantizer 184 are vector quantization for each of the 20msec
Pのベクトルの前フレームと現フレームとの組を補間し、後の処理で必要となるレートにするためのものであり、この例では、4倍のレートにしている。 Interpolating the set of the previous frame and the current frame of the P vector, after it is for the rate required by the process of, in this example, is four times the rate.

【0036】このような補間が行われた5msec 毎のL [0036] L of each 5msec such interpolation has been carried out
SPベクトルを用いて入力音声の逆フィルタリングを実行するために、LSP→α変換回路187により、LS To perform the inverse filtering of the input speech using the SP vector, the LSP → alpha conversion circuit 187, LS
PパラメータをLPC合成フィルタの係数であるαパラメータに変換する。 Converting the P parameter α parameter is a coefficient of the LPC synthesis filter. このLSP→α変換回路187からの出力は、上記LPC残差を求めるためのLPC逆フィルタ回路171に送られ、このLPC逆フィルタ171 The output from this LSP → alpha conversion circuit 187 is sent to an LPC inverted filter circuit 171 for finding the LPC residuals, the LPC inverse filter 171
では、5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。 In which then performs inverse filtering by α parameter updated every 5 msec, so as to obtain the smooth output.

【0037】LPC逆フィルタ171からのLPC予測残差出力は、LPC残差VQ(ベクトル量子化)回路1 The LPC prediction residual output from the LPC inverse filter 171, LPC residual VQ (vector quantization) circuit 1
72に送られてベクトル量子化され、その出力であるL Sent to 72 are vector quantized, which is the output L
PC残差のインデクスLPCidxが出力端子173より取り出される。 Index LPCidx of PC residual is taken out from an output terminal 173.

【0038】以上のような構成の信号符号化装置において、低域側の一部構成を独立したコーデックの符号化装置としたり、あるいは出力されるビットストリームの全体と一部とを切り換えることにより、ビットレートの異なる信号伝送やデコードを可能としている。 [0038] In the signal encoding apparatus having the above configuration, by switching the whole and a part of the bit stream or the encoding device of the codec independent configuration part of the low frequency side, or to be output, thereby enabling different signal transmission and decoding bit rate.

【0039】すなわち、図1の構成の各出力端子からの全てのデータを伝送するとき、伝送ビットレートは16 [0039] That is, when transmitting all data from the output terminals of the arrangement of FIG. 1, the transmission bit rate 16
kbps (kビット/秒)となり、一部端子からのデータを伝送することにより6kbps の伝送ビットレートとなる。 kbps (k bits / sec), and the transmission bit rate of 6kbps by transmitting data from some terminals.

【0040】あるいは、図1の全ての端子からの16k [0040] Alternatively, 16k from all of the terminals in FIG. 1
bps の全データを伝送、すなわち送信あるいは記録し、 Transmitting all data of bps, i.e. transmitted or recorded,
受信あるいは再生側で16kbps の全データをデコードすることにより、16kbps の高品質の音声信号が得られ、6kbps のデータをデコードすることにより、簡単なデコーダで6kbps に応じた品質の音声信号が得られる。 By decoding the entire data of 16kbps at the receiving or reproducing side, high-quality audio signal 16kbps is obtained by decoding the data of 6 kbps, the quality of the audio signal corresponding to 6 kbps in a simple decoder can be obtained .

【0041】ここで、図1の構成においては、出力端子131、141〜143からの出力データが6kbps のデータに相当し、さらに出力端子144〜147、17 [0041] Here, in the configuration of FIG. 1, the output data from the output terminal 131,141~143 corresponds to data of 6 kbps, and the output terminal 144~147,17
3、181からの出力データを加えることで、16kbp By adding the output data from the 3,181, 16kbp
s の全データが得られる。 All data of s is obtained.

【0042】次に、上記図1の信号符号化装置に対応する信号復号化装置について、図2を参照しながら説明する。 Next, the signal decoding apparatus corresponding to the signal encoding apparatus of FIG. 1 will be described with reference to FIG.

【0043】この図2において、入力端子200には、 [0043] In FIG. 2, the input terminal 200,
上記図1の出力端子131からの出力に相当するLSP LSP corresponding to the output from the output terminal 131 of FIG. 1
のベクトル量子化出力、いわゆるコードブックのインデクスLSPidxが供給されている。 Vector quantization output of the index LSPidx called codebook is supplied.

【0044】このLSPのインデクスLSPidxは、LPC The index LSPidx of this LSP is, LPC
パラメータ再生部240のLSPの逆VQ(逆ベクトル量子化)回路241に送られてLSP(線スペクトル対)データに逆ベクトル量子化あるいは逆マトリクス量子化され、LSP補間回路242に送られてLSPの補間処理が施された後、LSP→α変換回路243でLP Reverse VQ (vector dequantization) is sent to the circuit 241 LSP (Line Spectrum Pair) inverse vector quantization or inverse matrix quantization into data of the LSP parameter reproducing unit 240, an LSP is sent to an LSP interpolation circuit 242 after the interpolation processing has been performed, LP in LSP → alpha conversion circuit 243
C(線形予測符号)係数であるαパラメータに変換され、このαパラメータがLPC合成フィルタ215、2 C is converted to α parameters which are (linear predictive coding) coefficients, the α parameter LPC synthesis filter 215,2
25及びピッチスペクトラルポストフィルタ216、2 25 and pitch spectral post-filter 216,
26に送られる。 It is sent to the 26.

【0045】また、図4の入力端子201、202、2 [0045] In addition, the input terminal of FIG. 4 201,202,2
03には、上記図1の各出力端子141、142、14 The 03, the output terminals of the FIG. 1 141, 142, 143,
3からのMDCT係数のベクトル量子化のインデクスIs Vector quantization of the MDCT coefficients from 3 index Is
xVq 1 、ピッチラグL 1 、ピッチゲインg 1がそれぞれ供給されている。 xVq 1, pitch lag L 1, pitch gain g 1 are supplied respectively.

【0046】入力端子201からのMDCT係数のベクトル量子化のインデクスIsxVq 1は、逆VQ(逆ベクトル量子化)回路211に供給されて逆ベクトル量子化され、逆MDCT回路212により逆MDCT処理された後、重畳加算(オーバーラップアッド)回路213で重畳加算され、ピッチ合成フィルタ214に送られる。 The index IsxVq 1 vector quantization of the MDCT coefficients from the input terminal 201 is inverse vector quantization is supplied to the inverse VQ (vector dequantization) circuit 211, which is the inverse MDCT processing by the inverse MDCT circuit 212 after being superposed added by superimposing the addition (overlap add) circuit 213, it is sent to a pitch synthesis filter 214. ピッチ合成回路214には、各入力端子202、203からのピッチラグL 1 、ピッチゲインg 1が供給されている。 To pitch synthesis circuit 214, pitch lag L 1 from the input terminals 202 and 203, the pitch gain g 1 is supplied. このピッチ合成回路214で、上記図1のピッチ逆フィルタ112でのピッチ予測符号化の逆処理が施された後、LPC合成フィルタ215に送られ、LPC合成処理が施される。 This pitch synthesis circuit 214, after the inverse processing of pitch prediction encoding in the pitch inverted filter 112 of FIG. 1 has been performed, are sent to the LPC synthesis filter 215, an LPC synthesis processing is performed. このLPC合成された出力は、ピッチスペクトラルポストフィルタ216に送られて、ポストフィルタ処理が施され、出力端子219より6kbps のビットレートに対応する音声信号として取り出される。 Output .. This LPC synthesis is sent to a pitch spectral post-filters 216, post-filter processing is performed is extracted as an audio signal corresponding to the bit rate of 6kbps from an output terminal 219.

【0047】図4の入力端子204、205、206及び207には、上記図1の各出力端子144、145、 [0047] The input terminals 204, 205, 206 and 207 in FIG. 4, the output terminals of the FIG. 1 144 and 145,
146及び147からのMDCT係数のベクトル量子化のピッチゲインg 2 、ピッチラグL 2 、インデクスIsxV Pitch gain vector quantization of the MDCT coefficients from 146 and 147 g 2, a pitch lag L 2, an index IsxV
q 2及びピッチゲインg 1dがそれぞれ供給されている。 q 2 and the pitch gain g 1d is supplied.

【0048】入力端子207からのMDCT係数のベクトル量子化のインデクスIsxVq 2は、逆VQ回路220に供給されて逆ベクトル量子化され、加算器221に送られて逆VQ回路211からの逆ベクトル量子化されたM The index IsxVq 2 vector quantization of the MDCT coefficients from the input terminal 207 is inverse vector quantization is supplied to the inverse VQ circuit 220, the inverse vector quantization of the inverse VQ circuit 211 is sent to an adder 221 reduction has been M
DCT係数と加算され、逆MDCT回路222により逆MDCT処理された後、重畳加算(オーバーラップアッド)回路223で重畳加算され、ピッチ合成フィルタ2 Summed with DCT coefficients after being inverse MDCT processing by the inverse MDCT circuit 222, it is superimposed summed in superposition adder (overlap add) circuit 223, a pitch synthesis filter 2
14に送られる。 It is sent to the 14. このピッチ合成フィルタ224には、 The pitch synthesis filter 224,
各入力端子202、204、205からのピッチラグL Pitch lag L from each of the input terminal 202,204,205
1 、ピッチゲインg 2 、ピッチラグL 2が供給されると共に、入力端子203からのピッチゲインg 1と入力端子206からのピッチゲインg 1dとが加算器217で加算されたものが供給されている。 1, pitch gain g 2, together with the pitch lag L 2 is supplied, which a pitch gain g 1d of the pitch gain g 1 and the input terminal 206 from the input terminal 203 is added by the adder 217 is supplied . このピッチ合成フィルタ224でピッチ残差の合成処理が施された後、LPC After the composition processing of the pitch residuals has been performed in this pitch synthesis filter 224, LPC
合成フィルタ225に送られ、LPC合成処理が施される。 Is sent to the synthesis filter 225, LPC synthesis processing is performed. このLPC合成された出力は、ピッチスペクトラルポストフィルタ226に送られて、ポストフィルタ処理が施され、アップサンプリング回路227に送られてサンプリング周波数が例えば8kHzから16kHzにアップサンプリングされた後、加算器228に送られる。 Output .. This LPC synthesis is sent to a pitch spectral post-filters 226, post-filter processing is applied, after being up-sampled to 16kHz is sent to the sampling frequency to the up-sampling circuit 227, for example, from 8 kHz, the adder 228 It is sent to.

【0049】さらに、入力端子207には、図1の出力端子181からの高域側のLSPインデクスLSPidx Hが供給されており、このLSPのインデクスLSPidx Hは、 [0049] Further, the input terminal 207, LSP index LSPidx H of the high-frequency side are supplied from the output terminal 181 of FIG. 1, the index LSPidx H of this LSP is
LPCパラメータ再生部245のLSPの逆VQ(逆ベクトル量子化)回路246に送られてLSPデータに逆ベクトル量子化され、LSP補間回路247に送られてLSPの補間処理が施された後、LSP→α変換回路2 LPC parameters inverse VQ (vector dequantization) of the LSP in the reproducing unit 245 is sent to the circuit 246 is inverse vector quantized to LSP data, after being sent to an LSP interpolation circuit 247 interpolation of the LSP has been subjected, LSP → α conversion circuit 2
48でLPC係数のαパラメータに変換され、このαパラメータが高域側LPC合成フィルタ232に送られる。 Is converted to α parameter of the LPC coefficients at 48, the α parameter is sent to the high-frequency side LPC synthesis filter 232.

【0050】入力端子209には、図1の出力端子17 [0050] to the input terminal 209, the output terminal 17 of FIG. 1
3からの高域側のLPC残差のベクトル量子化出力であるインデクスLPCidxが供給されて、高域逆VQ回路23 3 is a high-frequency side LPC residual vector quantization output of from the index LPCidx is supplied, Koikigyaku VQ circuit 23
1で逆ベクトル量子化され、高域側LPC合成フィルタ232に送られる。 Is inverse vector quantized by 1, it is sent to a higher frequency side LPC synthesis filter 232. 高域側LPC合成フィルタ232でLPC合成処理された出力は、アップサンプリング回路233でサンプリング周波数が例えば8kHzから16k The output which is LPC synthesis processing in the high band side LPC synthesis filter 232, 16k from the sampling frequency is for example 8kHz in up-sampling circuit 233
Hzにアップサンプリングされた後、直交変換手段であるFFT回路234で高速フーリエ変換されて周波数軸上の信号に変換され、周波数シフト回路235で高域側に周波数シフト処理され、逆FFT回路236で逆高速フーリエ変換されることにより、高域側の時間軸信号とされ、重畳加算回路237を介して加算器228に送られる。 After being upsampled Hz, is converted is fast Fourier transform by the FFT circuit 234 is an orthogonal transform means into a signal on the frequency axis, is the frequency shift processing to a higher frequency side by the frequency shift circuit 235, the inverse FFT circuit 236 by being inverse fast Fourier transform is a time-axis signal of the high frequency side, it is fed to the adder 228 through the overdrive summing circuit 237.

【0051】加算器228では、上記アップサンプリング回路227からの信号と加算され、出力端子229より16kbps のビットレートの一部に対応する音声信号として取り出される。 [0051] The adder 228 is summed with the signal from the up-sampling circuit 227, it is taken out as a speech signal corresponding to a portion of the bit rate of 16kbps from an output terminal 229. 全体としての16kbps のビットレートの信号は、上記出力端子219からの信号も合成されることにより取り出される。 Signal bit rate of 16kbps as a whole is taken out by being also synthesized signal from the output terminal 219.

【0052】ここで、スケーラビリティについて説明する。 [0052] Here, a description will be given of scalability. 上記図1、図2の構成においては、6kbps と16 FIG 1, in the configuration of FIG. 2, 6 kbps and 16
kbps との2通りの伝送ビットレートをほぼ同様な符号化復号化方式で実現しており、16kbps のビットストリーム内に6kbps のビットストリームを完全に包含するスケーラビリティを実現しているが、さらに2kbps kbps is realized by substantially the same coding and decoding methods the transmission bit rate of the two kinds of, although scalability entirely contains the bit stream 6kbps in the bitstream of 16 kbps, further 2kbps
のような極端にビットレートの異なる符号化復号化を行う場合には、このような完全な包含関係を得るのは難しい。 Extreme in the case of performing different encoding and decoding of bit rates such as, it is difficult to obtain such complete inclusive relation.

【0053】ここで、同一の符号化復号化方式を適用できない場合であっても、最大限に共有関係を持ちながらスケーラビリティを持たせることが好ましい。 [0053] Here, even if it is not possible to apply the same coding and decoding method, it is preferable to provide scalability while maintaining a shared relationship to the maximum.

【0054】このため、図3に示すような構成の符号化装置によって2kbps の符号化を行い、図1の構成との間に最大限の共有部分あるいは共有データを持たせ、全体として16kbps のビットストリームで、この内16 [0054] Accordingly, it performs encoding of 2kbps by the configuration of the encoding apparatus shown in FIG. 3, to have a maximum common portion or share data between the configuration Figure 1, bit 16kbps overall in the stream, among the 16
kbps 全てを使用する場合と、6kbps を使用する場合と、2kbps を移用する場合とを、それぞれ用途に応じて使い分けるようにしている。 To using all kbps, and when using the 6 kbps, and a case of Iyo a 2 kbps, so that used depending on each application.

【0055】なお、厳密には、後述するように、2kbp [0055] It should be noted that, strictly speaking, as will be described later, 2kbp
s では2kbps の情報を全て使用するが、6kbps のモードでは、符号化単位となるフレームが有声音(V)のとき6kbps 、無声音(UV)のとき5.65kbps であり、また16kbps のモードでは、フレームが有声音(V)のとき15.2kbps 、無声音(UV)のとき1 Although use all the information of s in 2 kbps, the mode of 6 kbps, when the coding unit frame is voiced (V) 6 kbps, a 5.65kbps when unvoiced (UV), and in the 16kbps mode, when the frame is voiced (V) 15.2kbps, when unvoiced (UV) 1
4.85kbps である。 It is 4.85kbps.

【0056】ここで、図3の2kbps の符号化装置の構成及び動作を説明する。 [0056] Here, the configuration and operation of the encoder of 2kbps in FIG.

【0057】図3に示す符号化装置の基本的な考え方は、入力音声信号の短期予測残差例えばLPC(線形予測符号化)残差を求めてサイン波分析(sinusoidal ana [0057] The basic idea of ​​the encoding apparatus shown in FIG. 3, the input speech signal short-term prediction residuals for example LPC (linear predictive coding) seeking residual sinusoidal analysis (sinusoidal ana
lysis)符号化、例えばハーモニックコーディング(har lysis) coding, for example, Harmonic coding (har
monic coding )を行う第1の符号化部310と、入力音声信号に対して位相伝送を行う波形符号化により符号化する第2の符号化部320とを有し、入力信号の有声音(V:Voiced)の部分の符号化に第1の符号化部31 It has a first encoding unit 310 for performing monic coding), and a second encoding unit 320 for encoding by waveform encoding of performing phase transmission for the input voice signal, voiced speech input signal (V : first encoding unit 31 for encoding the portion of Voiced)
0を用い、入力信号の無声音(UV:Unvoiced)の部分の符号化には第2の符号化部320を用いるようにすることである。 With 0, unvoiced input signal: The coding portion of (UV UNVOICED) is to to use a second encoding unit 320.

【0058】上記第1の符号化部310には、例えばL [0058] In the first encoding unit 310, for example L
PC残差をハーモニック符号化やマルチバンド励起(M The PC residual harmonic encoding or multi-band excitation (M
BE)符号化のようなサイン波分析符号化を行う構成が用いられる。 Configuration for sine wave analysis coding such as BE) coding is used. 上記第2の符号化部320には、例えば合成による分析法を用いて最適ベクトルのクローズドループサーチによるベクトル量子化を用いた符号励起線形予測(CELP)符号化の構成が用いられる。 The second encoding unit 320, for example, construction of closed-loop search code excited linear prediction using a vector quantization by (CELP) coding for the optimum vector using an analysis by synthesis method.

【0059】図3の例では、入力端子301に供給された音声信号が、第1の符号化部310のLPC逆フィルタ311及びLPC分析・量子化部313に送られている。 In the example of FIG. 3, the speech signal supplied to an input terminal 301 is sent to an LPC inverted filter 311 and an LPC analysis quantization unit 313 of the first encoding unit 310. LPC分析・量子化部313から得られたLPC係数あるいはいわゆるαパラメータは、LPC逆フィルタ311に送られて、このLPC逆フィルタ311により入力音声信号の線形予測残差(LPC残差)が取り出される。 LPC coefficients or the so-called α parameter derived from the LPC analysis quantization unit 313 is sent to the LPC inverted filter 311, the linear prediction residual of the input speech signal (LPC residuals) is taken out by the LPC inverse filter 311 . また、LPC分析・量子化部313からは、後述するようにLSP(線スペクトル対)の量子化出力が取り出され、これが出力端子302に送られる。 From the LPC analysis quantization unit 313, a quantized output of the LSP (line spectrum pair) it is taken out as described later, and sent to an output terminal 302. LPC逆フィルタ311からのLPC残差は、サイン波分析符号化部314に送られる。 LPC residuals from the LPC inverted filter 311 is sent to the sinusoidal analysis encoding unit 314. サイン波分析符号化部314では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、V(有声音)/UV(無声音)判定部3 In the sinusoidal analysis encoding unit 314, together with pitch detection and spectral envelope amplitude calculation is performed, V (voiced) / UV (unvoiced) decision unit 3
15によりV/UVの判定が行われる。 Determination of V / UV is carried out by 15. サイン波分析符号化部314からのスペクトルエンベロープ振幅データがベクトル量子化部316に送られる。 Spectral envelope amplitude data from the sinusoidal analysis encoding unit 314 is sent to the vector quantization unit 316. スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部316からのコードブックインデクスは、スイッチ3 Codebook index from the vector quantization unit 316 as a vector quantization output of the spectral envelope, the switch 3
17を介して出力端子303に送られ、サイン波分析符号化部314からの出力は、スイッチ318を介して出力端子304に送られる。 17 through sent to the output terminal 303, an output of the sinusoidal analytic encoding unit 314 is sent to an output terminal 304 via a switch 318. また、V/UV判定部315 In addition, V / UV decision unit 315
からのV/UV判定出力は、出力端子305に送られると共に、スイッチ317、318の制御信号として送られており、上述した有声音(V)のとき上記インデクス及びピッチが選択されて各出力端子303及び304からそれぞれ取り出される。 V / UV decision output from, as well sent to the output terminal 305, are transmitted as a control signal of the switch 317 and 318, the output terminal the index and the pitch are selected when the above-mentioned voiced (V) respectively, from 303 and 304 is taken out.

【0060】図3の第2の符号化部320は、この例ではCELP(符号励起線形予測)符号化構成を有しており、雑音符号帳321からの出力を、重み付きの合成フィルタ322により合成処理し、得られた重み付き音声を減算器323に送り、入力端子301に供給された音声信号を聴覚重み付けフィルタ325を介して得られた音声との誤差を取り出し、この誤差を距離計算回路32 [0060] The second encoding unit 320 of FIG. 3, in this example has a CELP (code excited linear prediction) coding configuration, the output from the noise codebook 321, a synthesis filter 322 weighted combining processing, sends audio with resulting weighted subtractor 323 takes the error between the speech obtained through the perceptual weighting filter 325 the audio signal supplied to the input terminal 301, a distance calculating circuit this error 32
4に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳321でサーチするような、合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。 4 to send it performs distance calculations, such as search for vectors as the smallest error in the noise codebook 321, synthesis by analysis (Analysis by Synthesis) method of the time-domain waveform using a closed loop search using It is doing the vector quantization. このCELP符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳32 This CELP encoding is used for encoding the unvoiced portion as described above, the noise codebook 32
1からのUVデータとしてのコードブックインデクスは、上記V/UV判定部315からのV/UV判定結果が無声音(UV)のときオンとなるスイッチ327を介して、出力端子307より取り出される。 Codebook index as UV data from the 1, V / UV decision result from the V / UV decision unit 315 via a switch 327 which is turned on when the unvoiced (UV), is taken out from an output terminal 307.

【0061】このような符号化装置のLPC分析・量子化部313が図1のLPC分析・量子化部130の一部として共用でき、端子302からの出力がそのまま図1 [0061] can be shared LPC analysis quantization unit 313 of such a coding device as part of the LPC analysis quantization unit 130 of FIG. 1, output as a diagram of the terminal 302 1
の出力端子131からの出力として使用できる。 Can be use as an output from the output terminal 131. また、 Also,
サイン波分析符号化部314により得られるピッチデータの一部が図1のピッチ分析回路115からの出力として使用でき、このピッチ分析回路115をサイン波分析符号化部314内のピッチ出力部分と共用することも可能である。 Some of the pitch data obtained by the sinusoidal analysis encoding unit 314 is available as an output from the pitch analysis circuit 115 of FIG. 1, share this pitch analysis circuit 115 and pitch output portion of the sinusoidal analysis encoding unit 314 it is also possible to.

【0062】このように、図3の符号化方式と図1の符号化方式とは異なっているが、両者とも共通する情報を持っており、図4に示すようなスケーラビリティを有している。 [0062] Thus, although different from the encoding method of the encoding scheme of FIG. 1 in FIG. 3, it has the information common both have scalability as shown in FIG.

【0063】この図4において、2kbps のビットストリームS2は、分析合成フレームがV(有声音)のときとUV(無声音)のときとで内部構造が異なっており、 [0063] In FIG. 4, the bit stream S2 of 2kbps are different internal structure as in the case with UV analysis synthesis frame V (voiced) (unvoiced),
Vのときの2kbps のビットストリームS2v Bit stream S2v of 2kbps when V は、2つの部分S2ve、S2vaから、UVのときの2kbps のビットストリームS2u The two parts S2ve, from S2va, bitstream S2u of 2kbps when the UV は、2つの部分S2ue、S2uaからそれぞれ成っている。 The two parts S2ue, is made from each S2ua. 部分S2veは、ピッチラグが1 Part S2ve is, pitch lag 1
フレーム160サンプル当たり1ビット(以下、1ヒ゛ット/ Frame 160 samples per bit (hereinafter, 1 bit /
160サンフ゜ルのように示す)で、振幅Am が15ヒ゛ット/160サンフ゜ル であり、計16ヒ゛ット/160サンフ゜ル となる。 In the illustrated) as 160 Sanfu ° Le, the amplitude Am is 15 bits / 160 samples, a total of 16 bits / 160 samples. これは、8kHz This is, 8kHz
サンプリングで0.8kbps のビットレートのデータに相当する。 It corresponds to the data bit rate of 0.8kbps sampling. 部分S2ueは、LPC残差が11ヒ゛ット/80サンフ゜ルと、予備の1ヒ゛ット/160サンフ゜ルとで、計23ヒ゛ット/160サンフ゜ル となり、1.15kbps のビットレートのデータに相当する。 Portion S2ue is, LPC residuals and 11 bits / 80 Sanfu ゜Ru, in a 1 bit / 160 Sanfu ゜Ru preliminary, total 23 bits / 160 samples, and the corresponding data in the bit rate of 1.15Kbps. 2kbps のビットストリームS2の残りの部分S2 The remaining portion of the bitstream S2 of 2 kbps S2
va、S2uaは、上述した6kbps 、16kbps との共有部分あるいは共通部分であり、部分S2vaは、LSPデータ32ヒ゛ット/320サンフ゜ル と、V/UV判定データ1ヒ゛ット/16 va, S2ua is 6 kbps described above, a common portion or intersection of the 16 kbps, part S2va includes a LSP data 32 bits / 320 samples, V / UV decision data 1 bit / 16
0サンフ゜ルと、ピッチラグ7ヒ゛ット/160サンフ゜ルとで、計24ヒ゛ット/1 0 and Sanfu ゜Ru, with pitch lag 7 bits / 160 Sanfu ゜Ru, total of 24 bits / 1
60サンフ゜ル となり、1.2kbps のビットレートのデータに相当する。 60 samples, and the corresponding data in the bit rate of 1.2 kbps. 部分S2uaは、LSPデータ32ヒ゛ット/320サンフ゜ル と、V/UV判定データ1ヒ゛ット/160サンフ゜ルとで、計17 Portion S2ua is a and LSP data 32 bits / 320 samples, a V / UV decision data 1 bit / 160 Sanfu ゜Ru, total 17
ヒ゛ット/160サンフ゜ル となり、0.85kbps のビットレートのデータに相当する。 Bits / 160 samples, and the corresponding data in the bit rate of 0.85Kbps.

【0064】また、6kbps のビットストリームS6 [0064] The bit stream S6 in 6kbps
は、上記ビットストリームS2と同様に、分析フレームがVのときとUVのときとで内部構造が一部だけ異なる。 , Like the bit stream S2, the internal structure and when and UV when the analysis frame is V differs only partially. Vのときの6kbps のビットストリームS6v は、 Bitstream S6v of 6kbps when V is
2つの部分S6va、S6vbから、UVのときの6kbps 6kbps of two parts S6va, from S6vb, when the UV
のビットストリームS6u は、2つの部分S6ua、S6 The bit stream S6u, 2-part S6ua, S6
ubからそれぞれ成っている。 It is made from each of ub. 部分S6vaは、上述したように、部分S2vaと共通のデータ内容であり、部分S6 Portion S6va, as described above, a common data contents portion S2va, partial S6
vbは、ピッチゲイン6ヒ゛ット/160サンフ゜ルと、ピッチ残差18ヒ゛ット/32サンフ゜ルとで、計96ヒ゛ット/160サンフ゜ル となり、4.8k vb is a pitch gain of 6 bits / 160 Sanfu ゜Ru, in the pitch residuals of 18 bits / 32 Sanfu ゜Ru, total 96 bits / 160 samples becomes, 4.8k
bps のビットレートのデータに相当する。 It corresponds to the data bit rate of bps. また、部分S In addition, part S
6uaは、上記部分S2uaと共通のデータ内容であり、部分S6ubは、上記部分S6vbと共通のデータ内容である。 6ua is a common data contents and the partial S2ua, part S6ub are common data contents and said portion S6vb.

【0065】また、16kbps のビットストリームS1 [0065] The bit stream S1 of 16kbps
6は、上記ビットストリームS2及びS6と同様に分析フレームがVのときとUVのときとで内部構造が一部だけ異なる。 6 differ by the internal structure some similar analysis frame and the bit stream S2 and S6 is the case of UV the case of V. Vのときの16kbps のビットストリームS Bitstream S of 16kbps when V
16v は、4つの部分S16va、S16vb、S16vc、 16v is, four parts S16va, S16vb, S16vc,
S16vdから、UVのときの16kbps のビットストリームS16u は、4つの部分S16ua、S16ub、S1 From S16vd, bitstream S16u of 16kbps when the UV is four parts S16ua, S16ub, S1
6uc、S16udからそれぞれ成っている。 6uc, it is made from each of S16ud. 部分S16va Part S16va
は、上記部分S2va、S6vaと共通のデータ内容であり、S16vbは、上記部分S6vb、S6ubと共通のデータ内容である。 Is the partial S2va, a common data contents and S6va, S16vb, said portion S6vb, a common data contents S6ub. 部分S16vcは、ピッチラグ2ヒ゛ット/160サンフ゜ルと、ピッチゲイン11ヒ゛ット/160サンフ゜ル と、ピッチ残差 Portion S16vc includes a pitch lag 2 bits / 160 Sanfu ゜Ru, a pitch gain of 11 bits / 160 samples, pitch residuals
18ヒ゛ット/32サンフ゜ルと、S/Mモードデータ1ヒ゛ット/160サンフ゜ルとで、計104ヒ゛ット/160サンフ゜ルとなり、5.2kbps のビットレートに相当する。 And 18-bit / 32 Sanfu ゜Ru, in the S / M mode data 1 bit / 160 Sanfu ゜Ru becomes a total of 104 bits / 160 Sanfu ゜Ru, corresponding to the bit rate of 5.2Kbps. なお、上記S/Mモードデータは、VQ回路124で、音声(Speech)用と楽音(Musi Incidentally, the S / M mode data is a VQ circuit 124, the speech (Speech) for the tone (Musi
c) 用とで異なる2種類のコードブック(符号帳)を切り換えるためのものである。 It is for switching the two different codebook (codebook) between a c). 部分S16vdは、高域LP Part S16vd is, the high-frequency LP
Cデータ5ヒ゛ット/160サンフ゜ルと、高域LPC残差15ヒ゛ット/32サンフ゜ルとで、計80ヒ゛ット/160サンフ゜ル となり、4kbps のビットレートに相当する。 And C Data 5 bits / 160 Sanfu ゜Ru, in a high-frequency LPC residuals of 15 bits / 32 Sanfu ゜Ru, total 80 bits / 160 samples, and the corresponding bit rate of 4 kbps. また、部分S16uaは、上記部分S2ua、S6uaと共通のデータ内容であり、部分S16 The portion S16ua, said portion S2ua, a common data contents and S6ua, partial S16
ubは、上記部分S16vbすなわち上記部分S6vb、S6 ub is the partial S16vb i.e. the partial S6vb, S6
ubと共通のデータ内容である。 ub and a common data content. さらに、部分S16uc In addition, part S16uc
は、上記部分S16vcと共通のデータ内容であり、部分S16udは、上記部分S16vdと共通のデータ内容である。 Is a common data contents and the partial S16vc, part S16ud are common data contents and said portion S16vd.

【0066】以上のようなビットストリームを得るための図1、図3の構成をまとめると、図5のようになる。 [0066] Figure 1 to obtain a bit stream as described above, summarized the structure of FIG. 3, is shown in FIG.

【0067】この図5において、入力端子11は図1、 [0067] In FIG. 5, the input terminal 11 1,
図3の入力端子101に対応し、これが図1のLPF1 It corresponds to the input terminal 101 of FIG. 3, LPF1 which is FIG. 1
02、サンプリング周波数変換器103、減算器10 02, the sampling frequency converter 103, subtractor 10
6、BPF107等に相当する帯域分割回路12に送られて、低域側と高域側とに分割される。 6, is sent to the band-splitting circuit 12 corresponding to BPF107 like, is divided into a low frequency side and high frequency side. 帯域分割回路1 Band division circuit 1
2からの低域側信号は、図3の構成に対応する2k符号化部21と共通部分符号化部22とに送られる。 Lower frequency signal from the 2 is sent to a 2k encoding unit 21 corresponding to the configuration of FIG. 3 and the common portion encoding unit 22. 共通部分符号化部22は、図1のLPC分析・量子化部13 Common portion encoding unit 22, LPC analysis quantization unit 13 of FIG. 1
0、あるいは図3のLPC分析・量子化部310にほぼ相当し、さらに図3のサイン波分析符号化部内のピッチ抽出部分や図1のピッチ分析回路115も共通部分符号化部22に含ませることもできる。 0, or substantially equivalent to LPC analysis quantization unit 310 of FIG. 3, further pitch analysis circuit 115 of the pitch extraction section and Figure 1 of the sinusoidal analysis encoding portion of Figure 3 also includes a common portion encoding unit 22 it is also possible.

【0068】また、帯域分割回路12からの低域側信号は、6k符号化部23及び12k符号化部24にも送られる。 [0068] Further, the low-range side signals from the band-splitting circuit 12 is sent to 6k encoding unit 23 and the 12k encoding unit 24. 6k符号化部23は、図1の回路111〜116 6k encoding unit 23, the circuit of FIG. 1 111-116
にほぼ相当し、12k符号化部は、図1の回路117、 Corresponds approximately, 12k encoding unit, the circuit 117 of FIG. 1,
118、122〜128にほぼ相当する。 It corresponds approximately to the 118,122~128.

【0069】帯域分割回路12からの高域側信号は、高域4k符号化部25に送られる。 [0069] High-range side signal from the band-splitting circuit 12 is sent to the higher-band 4k encoding unit 25. 高域4k符号化部25 High frequency 4k encoding unit 25
は、図1の回路161〜164、171、172にほぼ相当する。 It corresponds approximately to the circuit 161~164,171,172 in FIG.

【0070】この図5の各出力端子31〜35から出力されるビットストリームと図4の各部分との関係を説明する。 [0070] describing the relationship between each portion of the bit stream and 4 output from the output terminals 31 to 35 of FIG. 5. 2k符号化部21から出力端子31を介して、図4の部分S2ve又はS2ueのデータが出力され、共通部分符号化部22から出力端子32を介して、図4の部分S2va(=S6va=S16va)又はS2ua(=S6ua= From 2k encoding unit 21 through the output terminal 31, the data portion S2ve or S2ue in FIG 4 is output through the output terminal 32 from the common portion encoding unit 22, part of Figure 4 S2va (= S6va = S16va ) or S2ua (= S6ua =
S16ua)のデータが出力される。 Data of S16ua) is output. また、6k符号化部23から出力端子33を介して、図4の部分S6vb(= Further, through the output terminal 33 from the 6k encoding unit 23, part of Figure 4 S6vb (=
S16vb)又はS6ub(=S16ub)のデータが出力される。 S16vb) or data S6ub (= S16ub) is output. さらに、12k符号化部24から出力端子34を介して、図4の部分S16vc又はS16ucのデータが出力され、高域4k符号化部25から出力端子35を介して、図4の部分S16vd又はS16udのデータが出力される。 Furthermore, through the output terminal 34 from the 12k encoding unit 24, it is output data of the partial S16vc or S16uc in FIG. 4, through the output terminal 35 from the high-frequency 4k encoding unit 25, part of Figure 4 S16vd or S16ud data is output.

【0071】以上説明したスケーラビリティの実現の技術を一般化すると、入力信号に対して第1の符号化を施して得られた第1の符号化信号と、上記入力信号に対して上記第1の符号化の一部とのみ共通する部分と共通しない部分とを有し上記第1の符号化とは独立の第2の符号化を施して得られた第2の符号化信号とを多重化する際に、上記第1の符号化信号と、上記第2の符号化信号の内の上記第1の符号化信号と共通する部分を除く信号とを多重化することである。 [0071] Generalizing the technique described scalability of realization described above, a first coded signal obtained by performing first encoding on the input signal, the first with respect to the input signal multiplexing the second coded signal obtained by performing second encoding independent of the first encoding and a common portion not as seen common parts of the part of the coded when, it is to multiplex the signals other than the a first coded signal, the first encoded signal and the common parts of said second coded signal.

【0072】これによって、本質的に異なる符号化方式であっても、共有できるものを最大限に共有させて、スケーラビリティを持たせることができる。 [0072] Thus, even in different coding schemes essentially, by sharing the most of what can be shared, it can have scalability.

【0073】次に、上記図1、図2の各部のより具体的な動作について説明する。 Next, FIG. 1, a more specific operation of each unit of FIG. 2 will be described.

【0074】先ず、図6の(A)に示すように、フレーム間隔、いわゆるフレームインターバルをNサンプル、 [0074] First, as shown in (A) of FIG. 6, a frame interval, a so-called frame interval N samples,
例えば160サンプルとし、1フレームに1回の分析を行う場合について説明する。 For example the 160 samples, a case of performing one analysis per frame.

【0075】ピッチ分析中心をt=kN(ただしk=0, [0075] The pitch analysis center t = kN (where k = 0,
1,2,3,…)とするとき、LPC逆フィルタ111からのLPC予測残差について、t= kN-N/2 〜 kN+N/2 に存在する成分から成る次元数Nのベクトルをとし、これをLサンプルだけ時間軸の前方にずらしたt= kN-N/2- 1,2,3, when the ...), the LPC prediction residuals from the LPC inverted filter 111, a vector of t = kN-N / 2 ~ kN + N / 2 number of dimensions consisting of components present in the N X and then, it was shifted forward only time axis L sample t = kN-N / 2-
L 〜 kN+N/2-L の成分から成るN次元ベクトルをL として、 ‖ −g L 2が最小となるようL=L optをサーチし、このL optをこの区間での最適ピッチラグL 1とする。 The N-dimensional vector consisting of components of L ~ kN + N / 2- L as X L, X -g X L 2 searches the L = L opt to be the smallest, in the L opt in this section the optimum pitch lag L 1. あるいは、ピッチの急激な変化を避けるため、ピッチトラッキングを行った後の値を最適ピッチラグL 1としてもよい。 Alternatively, in order to avoid an abrupt change in pitch, the value may be used as the optimal pitch lag L 1 after the pitch tracking.

【0076】次に、この最適ピッチラグL 1に対して、 [0076] Next, for this optimum pitch lag L 1,

【0077】 [0077]

【数1】 [Number 1]

【0078】が最小となるg iの組を [0078] A is a set of g i to be the minimum

【0079】 [0079]

【数2】 [Number 2]

【0080】について解き、ピッチゲインベクトル1 [0080] Solving for, pitch gain vector g 1
を求める。 The seek. このピッチゲインベクトル1 をベクトル量子化したもののコードブックインデクスをg 1とする。 Although the pitch gain vector g 1 and vector quantization codebook index and g 1.

【0081】次に、さらに予測精度を上げるため、t= [0081] Next, in order to further increase the prediction accuracy, t =
(k-1/2)Nにも分析中心をおくことを考える。 (K-1/2) consider also placing an analysis center to N. このとき、 At this time,
予めt=kN及び(k-1)Nでのピッチラグ、ピッチゲインがそれぞれ求められているものとする。 Pre t = kN and (k-1) lag in N, it is assumed that the pitch gain is sought, respectively.

【0082】音声信号の場合、その基本周波数はゆるやかに変化すると考えられるため、t=kNのときのピッチラグL(kN)と、t=(k-1)NのときのピッチラグL((k-1) [0082] When the audio signal, it is considered that the fundamental frequency is gradually changed, and the pitch lag L (kN) when the t = kN, t = (k-1) pitch lag when the N L ((k- 1)
N)ととの間に大きな変化はないと考えられ、またその変化も線形であると考えられるため、t=(k-1/2)NのときのピッチラグL((k-1/2)N)のとり得る値に制限を加えることは可能である。 Major changes during N) Toto not considered, also because it is considered that the change is linear, t = (k-1/2) pitch lag when the N L ((k-1/2) it is possible to restrict the possible values ​​of N). 本例では、次のようにしている。 In this example, as follows.

【0083】 L((k-1/2)N) = L(kN) = (L(kN)+L((k-1)N))/2 = L((k-1)N) これらの内のどの値を採用するかは、それぞれのラグに対応したピッチ残差のパワーを計算することによってなされる。 [0083] L ((k-1/2) N) = L (kN) = (L (kN) + L ((k-1) N)) / 2 = L ((k-1) N) of these or to adopt the values ​​of the throat is done by calculating the power of the pitch residuals corresponding to the respective lug.

【0084】すなわち、t=(k-1/2)Nを中心としたt= [0084] That is, t = (k-1/2) around the N t =
(k-1/2)NN/4〜(k-1/2)N+N/4の次元数N/2のベクトルをとし、L(kN)、(L(kN)+L((k-1)N))/2、L((k-1)N) (k-1/2) NN / 4~ the (k-1/2) N + N / 4 number of dimensions N / 2 vectors and X, L (kN), ( L (kN) + L ((k -1) N)) / 2, L ((k-1) N)
だけそれぞれ遅れた次元数N/2のベクトルを0 (0) Only each delayed a vector of dimensionality N / 2 X 0 (0) ,
1 (0) 2 (0) とし、これらの各ベクトル0 (0) 1 X 1 (0), X 2 and (0), each of these vectors X 0 (0), X 1
(0) 及び2 (0) のそれぞれの近傍のベクトルを0 (-1) (0) and X 2 each vector in the vicinity of the (0) X 0 (-1),
0 (1) 1 (-1) 1 (1) 及び2 (-1) 2 (1) とする。 X 0 (1), X 1 (-1), X 1 (1) and X 2 (-1), and X 2 (1). また、これらの各ベクトル0 (i) 1 (i) 2 (i) Each of these vectors X 0 (i), X 1 (i), X 2 (i)
(ただしi=−1、0、1)に対応する核ピッチゲインg 0 (i) 、g 1 (i) 、g 2 (i)について、 (Where i = -1,0,1) corresponding to the nuclear pitch gain g 0 (i), for g 1 (i), g 2 (i),

【0085】 [0085]

【数3】 [Number 3]

【0086】の3つうちの最小のものD jに対するラグを、t=(k-1/2)Nでの最適ラグL 2とし、そのときのピッチゲインg j (i) (ただしi=−1、0、1)をベクトル量子化した上でピッチゲインを求める。 [0086] The lag for the smallest of D j of three, t = (k-1/ 2) a pitch gain and optimal lag L 2 at N, then the g j (i) (provided that i = - 1,0,1) obtaining pitch gain in terms of the vector quantization. なお、L 2のとり得る値は3通りであり、これは現在及び過去のL 1 Incidentally, possible values of L 2 are three ways, which is the current and past L 1
から求められるため、ストレートな値ではなく補間スキームを表すフラグを補間インデクスとして伝送すればよい。 Because it is determined from the flag representing an interpolation scheme rather than a straight value it may be transmitted as an interpolation index. また、L(kN)、L((k-1)N)のいずれかが0、すなわちピッチが無い、ピッチ予測利得がとれない、と判断されるときには、L((k-1/2)N)の候補として上記(L(kN)+L Moreover, L (kN), L either ((k-1) N) is 0, i.e. there is no pitch, when the pitch prediction gain can not be obtained, and the determination, L ((k-1/2) N above-mentioned as a candidate for the) (L (kN) + L
((k-1)N))/2 は除外される。 ((K-1) N)) / 2 is excluded.

【0087】このように、ピッチラグ算出に用いるベクトルの次元数を半分のN/2 にした場合、t=kNが分析中心のときのL kはそのまま用いることができるが、 [0087] Thus, when the number of dimensions of the vector X used for the pitch lag calculated half N / 2, t = it kN is L k when the analysis center may be used as it is, X
の次元数がNで分析したときのピッチゲインが得られているにも拘わらず、再度ゲイン計算を行い、そのデータを伝送しなければならない。 Number of dimensions despite the pitch gain when analyzed by N is obtained, it performed again gain calculation shall transmit the data. ここでは、そのビット数削減のため、 Here, since the number of bit reduction,

【0088】 [0088]

【数4】 [Number 4]

【0089】ベクトルの要素(g 0 ,g 1 ,g 2 ) の内、 [0089] Among the elements of the vector g (g 0, g 1, g 2),
1がもっとも大きくg 0 ,g 2は0に近いか、あるいはその逆であり、ベクトルは3点の間で強い相関があるので、上記ベクトル1d は元のベクトルに比べて分散が小さくなることが予想され、より少ないビット数で量子化できる。 or g 1 is close to the largest g 0, g 2 0, or a vice versa, since the vector g there is a strong correlation between the three points, is the vector g 1d is dispersed as compared with the original vector g be smaller is expected be quantized with fewer bits.

【0090】従って、1フレームで伝送すべきピッチパラメータは、L 1 ,g 1 ,L 2 ,g 2 ,g 1dの5つになる。 [0090] Therefore, the pitch parameters to be transmitted in one frame, L 1, g 1, L 2, g 2, become five g 1d.

【0091】次に、図5の(B)は、フレーム周波数の8倍のレートで補間されたLPC係数の位相を示しており、このLPC係数は、図1のLPC逆フィルタ111 [0091] Next, in FIG. 5 (B) shows the phase of the LPC coefficients interpolated with eight times the rate of the frame frequency, the LPC coefficients, LPC inverse filter 111 of Figure 1
による予測残差算出に用いられ、また図2のLPC合成フィルタ215、225、ピッチスペクトラルポストフィルタ216、226にそれぞれ用いられる。 Used in the prediction residual calculated by also LPC synthesis filter 215 and 225 in FIG. 2, respectively used in the pitch spectral post-filters 216 and 226.

【0092】次に、上記ピッチラグ及びピッチゲインから求められたピッチ残差のベクトル量子化について説明する。 Next, a description will be given vector quantization of pitch residuals obtained from the pitch lag and pitch gain.

【0093】ベクトル量子化の聴覚重み付けを容易にまた精度よく行うため、ピッチ残差は50%オーバーラップの窓かけをした上、MDCT変換を行い、この領域で重み付けベクトル量子化を行う。 [0093] To perform good easily also precision perceptual weighting of the vector quantization, on pitch residuals in which the windowing 50% overlap, performs MDCT conversion, performs weighting vector quantization in this area. このときの変換長は任意であるが、以下の点を考慮して上で、この例ではかなり小次元なものを用いている。 Although the transform length is arbitrary in this case, on the following points in mind, it is used fairly small dimensions in this example.

【0094】(1) 大次元のベクトル量子化は演算量が膨大になり、MDCT領域でスプリットあるいは並べ替えを行わざるを得ない。 [0094] (1) Large-dimensional vector quantization becomes amount of calculation large, inevitably performed a split or sort in the MDCT domain. (2) スプリットした場合、スプリットされたバンド間のビットアロケーションを精密に行うことは大変困難である。 (2) If split, to perform precisely the bit allocation among the split bands is very difficult. (3) 次元数が2のべき乗ではないとき、FFTを用いたMDCTの高速算法が使用できない。 (3) when the number of dimensions is not a power of 2, fast algorithm of MDCT using FFT is unavailable.

【0095】今回はフレーム長を20msec (=160 [0095] This time 20msec the frame length (= 160
サンプル/8kHz)にとっているため、160/5=3 Because you are taken to the sample / 8kHz), 160/5 = 3
2=2 5となることから、50%オーバーラップを考慮してMDCT変換サイズを64にとり、上記(1)〜(3)の各点の解決を図った。 Since a 2 = 2 5, MDCT transform size nitrilase 64 in consideration of the 50% overlap, tried to resolve the points of (1) to (3).

【0096】フレーミングの状態は図6の(C)のようになる。 [0096] Framing state is as shown in FIG. 6 (C).

【0097】すなわち、この図6の(C)において、2 [0097] That is, in (C) of FIG. 6, 2
0msec =160サンプルのフレーム内のピッチ残差r 0msec = 160 pitch residuals r of the sample in the frame
p (n) (ただしn=0,1,…,191、ここでn=160,…,191は、 p (n) (where n = 0,1, ..., 191, where n = 160, ..., 191 is,
次のフレームの0,…,31の意味)を5つのサブフレームに分け、5つのサブフレームのi番目(i=0,1,…,4)のサブフレームのピッチ残差r pi (n) (ただし、n=0,1, 0 of the next frame, ..., and 31 sense) is divided into five subframes, i th five subframes (i = 0, 1, ..., 4) of sub-frame pitch residuals r pi (n) (However, n = 0,1,
…,31) を、 r pi (n) = r p (32i+n) とする。 ..., 31) a, and r pi (n) = r p (32i + n). このサブフレームのピッチ残差r pi (n) に、M To pitch residuals r pi of the sub-frame (n), M
DCTのエリアシング相殺ができるような窓関数w(n) Window function w as may aliasing cancellation of DCT (n)
をかけて得られるw(n)・r pi (n)に対してMDCT変換を施す。 Subjected to the MDCT conversion on over the resulting w (n) · r pi ( n). この窓関数w(n) としては、例えば w(n) = √(1−(cos2π(n+0.5))/64) を用いればよい。 As the window function w (n), for example, w (n) = √ (1- (cos2π (n + 0.5)) / 64) may be used.

【0098】なお、MDCTの変換処理の演算は、変換長が64(=2 6 ) のため、FFTを用いて次のように計算できる。 [0098] The calculation of the conversion processing of the MDCT, since the conversion length is 64 (= 2 6), can be calculated as follows by using the FFT.

【0099】(1) x(n) = w(n)・r pi (n)・exp((-2π [0099] (1) x (n) = w (n) · r pi (n) · exp ((- 2π
j/64)(n/2)) とする。 j / 64) and (n / 2)). (2) x(n) を64ポイントFFT処理し、これをy(k) (2) x (n) was 64 point FFT processing, which y (k)
とする。 To. (3) y(k)・exp((-2πj/64)(k+1/2)(1/2+64/4)) の実部をとり、これをMDCT係数c i (k)(ただし、k=0,1, (3) y (k) · exp ((- 2πj / 64) (k + 1/2) (1/2 + 64/4)) takes the real part of which MDCT coefficients c i (k) (provided that , k = 0,1,
…,31) とする。 ..., 31) to be.

【0100】次に、各サブフレームのMDCT係数c [0100] Then, MDCT coefficients c of each subframe
i (k)をベクトル量子化するが、このときの重み付けについて説明する。 i (k) is the vector quantization, but described weighting at this time.

【0101】ピッチ残差r pi (n) をベクトルi とおくと、合成後の距離Dは、 [0102] Placing the pitch residuals r pi (n) and the vector r i, the distance D after synthesis,

【0102】 [0102]

【数5】 [Number 5]

【0103】ここで、Mは、その性質からH t H (ただしH tはHの転置行列)を対角化すると考えられるので、 [0103] Here, M, since its (the proviso H t H transposed matrix of) H t H from nature is believed to diagonalized,

【0104】 [0104]

【数6】 [6]

【0105】とし、ここではh iを合成フィルタの周波数応答にとった。 And [0105], took a h i to the frequency response of the synthesis filter here. 従って、 Therefore,

【0106】 [0106]

【数7】 [Equation 7]

【0107】このように、h kをそのままc i (k)の量子化の重み付けに使用した場合、合成後のノイズがフラットになる、いわゆる100%ノイズシェイピングになるため、さらに聴覚重み付けWによりフォルマントを相似形のノイズになるようにコントロールする。 [0107] Formant By this way, when used in the weighting of the quantization of the h k as c i (k), the noise after synthesis becomes flat, the so-called 100% noise shaping, further perceptual weighting W the control to be similar figure of noise.

【0108】 [0108]

【数8】 [Equation 8]

【0109】なお、h i 2 、w i 2は、合成フィルタH(z) [0109] It should be noted, h i 2, w i 2, the synthesis filter H (z)
及び聴覚重み付けフィルタW(z) And perceptual weighting filter W (z)

【0110】 [0110]

【数9】 [Equation 9]

【0111】のインパルス応答のFFTパワースペクトルとして求められる。 [0111] is obtained as the FFT power spectrum of the impulse response of the.

【0112】ここで、α ijは、第iサブフレームに対応するLPC係数であり、補間されたLSP係数から求められる。 [0112] Here, alpha ij is the LPC coefficient corresponding to the i-th sub-frame is determined from the interpolated LSP coefficients. すなわち、前フレームの分析で得られたLSP That, LSP obtained in the analysis of the previous frame
0 (j)と現フレームのLSP 1 (j)とを内分し、本例の場合、第iサブフレームのLSPは、 0 (j) and by internally dividing the LSP 1 (j) of the current frame, in this example, LSP of the i-th subframe,

【0113】 [0113]

【数10】 [Number 10]

【0114】としてLSP (i) (j)を求める。 [0114] determine the LSP (i) (j) as a. その後、L Then, L
SP→α変換によりα ijを求める。 Determine the α ij by SP → α conversion.

【0115】このようにして求められたH、Wに対して、新たにW'=WHと置き、ベクトル量子化の際の距離尺度として用いる。 [0115] Thus H was determined, with respect to W, newly placed and W '= WH, is used as the distance measure during vector quantization.

【0116】ベクトル量子化は、シェイプ、ゲインベクトル量子化によって行うが、その学習時の最適エンコード、デコード条件について説明する。 [0116] Vector quantization, shape, is performed by the gain vector quantization, the optimal encoding at the time of learning, the decoding conditions described.

【0117】学習のある時点でのシェイプコードブックを 、ゲインコードブックをgとし、トレーニング時の入力すなわち各サブフレームでのMDCT係数を 、そのサブフレームでの重みをW´とすると、このときの歪のパワー 2は、以下の式で定義される。 [0117] The shape codebook at a certain point of learning s, the gain codebook and g, the input or MDCT coefficients of each sub-frame during training x, When W'weights at the sub-frame, the power D 2 for the distortion of the case is defined by the following equation.

【0118】 2 =‖W´( −g )‖ 2この 2を最小にするような(g、 )を選択することが最適エンコード条件である。 [0118] a D 2 = ‖W' (x -g s ) || 2 is the optimum encoding condition to select a (g, s) to the D 2 to the minimum.

【0119】 [0119]

【数11】 [Number 11]

【0120】したがって、まず第1のステップとして、 [0120] Therefore, As a first step,
シェイプコードブックについて、 The shape code book,

【0121】 [0121]

【数12】 [Number 12]

【0122】を最大にする optをサーチし、ゲインコードブックについては、この optに対し、 [0122] to search for s opt to maximize, for the gain code book, for this s opt,

【0123】 [0123]

【数13】 [Number 13]

【0124】に最も近いg optをサーチすればよい。 [0124] closest g opt to the it is sufficient to search.

【0125】次に、最適デコード条件を求める。 [0125] Next, determine the optimum decoding conditions.

【0126】第2のステップとしてシェイプコードブックについて、学習中のある時点でシェイプコードブック [0126] The shape code book as a second step, shape code book at some point during the learning
にエンコードされたの集合 k (k=0,…,N− A set of encoded x in s x k (k = 0, ..., N-
1)に対して、このときの歪の総和E sは、 Relative to 1), the sum E s for the distortion at this time,

【0127】 [0127]

【数14】 [Number 14]

【0128】であるから、これを最小にするは、 [0128] a since, is s to do this to a minimum,

【0129】 [0129]

【数15】 [Number 15]

【0130】より [0130] than

【0131】 [0131]

【数16】 [Number 16]

【0132】と求められる。 [0132] and is required.

【0133】ゲインコードブックについては、ゲインコードブックgにエンコードされたの集合 k (重みW [0133] The gain code book, a collection of gain codebook g is encoded in the x x k (weight W
´ k 、シェイプ k )について、歪の総和E gは、 'K, for the shape s k), the sum E g of distortion,

【0134】 [0134]

【数17】 [Number 17]

【0135】である。 [0135] a.

【0136】上記第1、第2のステップを繰り返し求めながら、GLA(一般化ロイドアルゴリズム)によって、シェイプ、ゲインコードブックを得ることができる。 [0136] While repeatedly called the first, second step, the GLA (generalized Lloyd algorithm), it is possible to obtain the shape, the gain codebook.

【0137】なお、本例では、信号レベルの小さいときのノイズを重視するため、W´そのものでなく、レベル(の逆数)の重みをつけたW´/‖ ‖を用いて学習を行っている。 [0137] In this embodiment, in order to emphasize the noise when the signal level is low, W'not itself, W'was weighted levels (inverse of) / ‖ x ‖ performing learning using there.

【0138】このようにして、作成した符号帳を用いてピッチ残差をMDCTしたものに対するベクトル量子化を行い、そのインデクスをLPC(実際にはLSP)、 [0138] In this way, performs a vector quantization for those MDCT pitch residuals using the codebook created, (LSP is actually) the index LPC,
ピッチ、ピッチゲインととともに伝送し、デコード側では逆ベクトル量子化、ピッチ、LPC合成を行うことで、再生音を得ることができるが、本例では、さらにレートの高い動作を可能とするため、前述のピッチラグ、 Pitch, and transmitted along with the pitch gain, the decoding side by performing inverse vector quantization, the pitch, the LPC synthesis, since it is possible to obtain a reproduced sound, in this example, further to enable rate high operation, the above-mentioned pitch lag,
ピッチゲイン算出の頻度向上とともに、ピッチ残差MD With the frequency increase of the pitch gain calculation, pitch residuals MD
CTベクトル量子化を多段にすることで、これに対応している。 The CT vector quantization by multi-stage, which corresponds to this.

【0139】一例を図7の(A)に示す。 [0139] An example in FIG. 7 (A). ここでの段数は2段であり、シーケンシャルな多段ベクトル量子化であるが、2段目の入力は1段目のデコード結果をL 2 Here the number of stages of the a two-step, is a sequential multi-stage vector quantization, input of the second stage L 2 to the decoding results of the first stage,
2 、g 1dから作られた精度の高いピッチ残差から引いたものとして用いる。 g 2, used as a minus from accurate pitch residuals made from g 1d. すなわち、1段目のMDCT回路113からの出力をVQ回路114でベクトル量子化した後の代表ベクトルあるいは逆量子化出力を、逆MDC That is, the output representative vectors or dequantized after vector quantization in VQ circuit 114 output from the first-stage MDCT circuit 113, inverse MDC
T回路113aで逆MDCT処理した結果を、減算器1 The result of the inverse MDCT processing at T circuit 113a, a subtractor 1
28'に送り、2段目の残差(図1のピッチ逆フィルタ122からの出力)から減算している。 Feed 28 ', it is subtracted from the residual of the second stage (output of the pitch inverted filter 122 of FIG. 1). この減算器12 The subtractor 12
8'からの出力をMDCT回路123'によりMDCT MDCT by 'MDCT circuit 123 the output from the' 8
処理してVQ回路124で量子化する。 Processed to quantized by VQ circuit 124. これは、1段目の逆MDCTを行わない等価な図7の(B)のような構成とすることができ、図1ではこの(B)の構成を用いている。 This can be configured as a 1-stage inverse MDCT to take place not equivalent 7 of (B), and using the configuration of FIG. 1 the (B).

【0140】図2のデコーダ側でMDCT係数のインデクスI dxq1 、I dxq2をともに用いたデコードをする際は、I dxq1 、I dxq2の逆ベクトル量子化の結果の和を逆MDCT、オーバーラップ加算をした上で、ピッチ合成、LPC合成を行い再生音を得る。 [0140] index I dx V q1 at the decoder side of the MDCT coefficients Figure 2, when the decoding using both the I dx V q2 is the sum of the results of the inverse vector quantization of I dx V q1, I dx V q2 inverse MDCT, on where the overlap-add, reproduction sound performs pitch synthesis, LPC synthesis. 当然ピッチ合成時のピッチラグ、ピッチゲイン更新頻度は、1段のみの場合の倍になり、本願では、80サンプル毎に切り換わるピッチ合成フィルタを駆動することになる。 Of course during pitch synthesis lag, pitch gain updating frequency is doubled in the case of only one stage, in the present application, will drive the pitch synthesis filter switched every 80 samples.

【0141】次に、図2のデコーダ側のポストフィルタ216、226について説明する。 [0141] Next, a description will be given decoder side of the post filter 216 and 226 in FIG. 2.

【0142】ポストフィルタ216、226は、ピッチ強調、高域強調、スペクトル強調フィルタの縦続接続でポストフィルタ特性p(Z) を実現する。 [0142] post-filter 216 and 226, a pitch emphasis, high range emphasis, to realize post-filter characteristics p (Z) in cascade connection of spectrum emphasis filters.

【0143】 [0143]

【数18】 [Number 18]

【0144】この式において、g i 、Lはピッチ予測で求められたピッチゲイン、ピッチラグであり、νはピッチ強調の度合いを表すパラメータである(例えばν= [0144] In this equation, g i, L is the pitch gain, pitch lag obtained by the pitch prediction, [nu is a parameter representing the degree of pitch enhancement (e.g. [nu =
0.5)。 0.5). また、ν bは高域強調(例えばν b =0. Also, [nu b high frequency enhancement (e.g. ν b = 0.
4)を、ν n 、ν dはスペクトルの強調度(例えばν n The 4), ν n, ν d is the enhancement degree of the spectrum (e.g., [nu n
=0.5、ν d =0.8)を表すパラメータである。 = 0.5, which is a parameter representing a [nu d = 0.8).

【0145】次に、LPC合成フィルタの出力s(n) 、 [0145] Next, LPC synthesis filter of the output s (n),
ポストフィルタの出力s p (n)についてのゲイン補正を行う。 The gain correction for the output s p of the post-filter (n). このときの係数k adjは、 Coefficient k adj at this time,

【0146】 [0146]

【数19】 [Number 19]

【0147】であるが、k adjはフレーム内で固定ではなく、LPFを通した上でサンプル毎に変化させる。 [0147] a but, k adj is not fixed in a frame, changing every sample on through the LPF. なお、pとして例えば0.1が用いられる。 Incidentally, as the p example 0.1 is used.

【0148】k adj (n) =(1-p)k adj (n-1) +pk adj次に、フレームのつなぎを滑らかにするため、以下のようにピッチ強調フィルタを2つ用意し、その結果をクロスフェイドしたものを最終出力とする。 [0148] k adj (n) = (1 -p) k adj (n-1) + pk adj Next, in order to smooth the connecting frame, and provides two pitch emphasis filter as follows, that the results are the ones that were cross-fade to the final output.

【0149】 [0149]

【数20】 [Number 20]

【0150】 [0150]

【数21】 [Number 21]

【0151】これにより構成されたポストフィルタの出力s p0 (n) 、s p (n)に対して最終出力s out (n)を、 s out (n)=(1-f(n)) s p0 (n)+f(n) s p (n) とする。 [0151] This post-filter constructed by the output s p0 (n), s p a final output s out (n) with respect to (n), s out (n ) = (1-f (n)) s and p0 (n) + f (n ) s p (n). ここで、f(n) は、例えば図8に示すような窓である。 Here, f (n) is, for example, a window as shown in FIG. この図8の(A)は低レート時、(B)は高レート時をそれぞれ示しており、(B)の80サンプル幅の窓は、160サンプル、20msec の合成時には2回繰り返して用いられる。 When (A) is a low rate of FIG. 8, (B) shows the time of high-rate, respectively, 80 a window of sample width (B) in 160 samples, used repeated twice during 20msec synthesis.

【0152】次に、図1のエンコーダ側のVQ(ベクトル量子化)回路124について説明する。 [0152] Next, the encoder side VQ (vector quantization) of FIG. 1 circuit 124 will be described.

【0153】このVQ回路124は、音声(Speech)用と楽音(Music) 用とで互いに異なる2種類の符号帳(コードブック)を有しており、これらの2種類の符号帳を入力信号に応じて切り換え選択するようにしている。 [0153] The VQ circuit 124 has a voice (Speech) for the tone (Music) two different types of codebooks between a (codebook), these two types of input signal codebook in response it is to be selectively switched.

【0154】すなわち、音声、楽音信号の量子化において、量子化器の構成が決まっている場合、この量子化器の持つ符号帳は、学習時に使用した音声、楽音の性質において最適なものとなるため、両者を一緒にして学習した場合、両者の性質が大きく異なると、学習後の符号帳は両者の平均的な性質を持つことになる。 [0154] That is, voice, in the quantization of the tone signal, if the structure of the quantizer is determined, the codebook owned by the quantizer becomes a voice, an optimum in the nature of a tone used during training Therefore, if the learned and the combined both when both properties are greatly different, codebook after learning will have an average nature of both. 従って、一つの符号帳で量子化器を構成した場合、そのパフォーマンス、あるいは平均S/Nは、あまり高くならないことが予想される。 Thus, when constituting the quantizer in one codebook, the performance or the average S / N, is expected to not be very high.

【0155】そこで、本例においては、このように性質の異なる複数の信号について、それぞれの学習データを用いて作成した符号量を切り換えて、量子化器の性能を向上させている。 [0155] Therefore, in this embodiment, the plurality of different signals natures Thus, by switching the amount of code generated using each of the learning data, thereby improving the performance of the quantizer.

【0156】図9は、このような2種類の符号帳C [0156] Figure 9, such two types of codebooks C
A 、CB Bを有するベクトル量子化器の概略的な構成を示している。 B A, shows a schematic configuration of a vector quantizer having a CB B.

【0157】この図9において、入力端子501に供給された入力信号は、ベクトル量子化器511、512に送られる。 [0157] In FIG. 9, the input signal supplied to the input terminal 501 is sent to the vector quantizer 511 and 512. これらのベクトル量子化器511、512 These vector quantizers 511, 512
は、それぞれ符号長(コードブック)CB A 、CB Bを有している。 Each code length (code book) CB A, and a CB B. これらのベクトル量子化器511、512からの代表ベクトルあるいは逆量子化出力は、それぞれ減算器513、514に送られ、元の入力信号との差がとられて、これらの各誤差分が比較器515に送られる。 Representative vectors or dequantized outputs of these vector quantizers 511 and 512 is sent to each subtractor 513, 514 is taken the difference between the original input signal, each of these errors worth comparator It is sent to the 515.
比較器515では、各誤差分を比較して、誤差が小さい方のベクトル量子化器511、512からの量子化出力であるインデクスを切換スイッチ516で切換選択して出力端子502に送る。 The comparator 515 compares the respective error component, sends the index is a quantization output from the vector quantizer 511 and 512 towards error is small the output terminal 502 and switching selection by the changeover switch 516.

【0158】この場合、各ベクトル量子化器511、5 [0158] In this case, the vector quantizer 511,5
12の量子化単位時間あるいは周期よりも、切換スイッチ516の切換周期を長くしている。 Than the quantization unit time or period of 12, it has a longer switching period of the switch 516. 例えば、量子化単位がフレームを8分割したサブフレームであるとき、切換スイッチ516をフレーム単位で切り換えている。 For example, when the quantization unit is a sub-frame divided into eight frames, and switches the changeover switch 516 in units of frames.

【0159】ここで、例として、それぞれ音声のみ、楽音のみで学習した同じサイズNで、同じ次元Mの符号帳CB A 、CB Bがあるとして、あるフレームのL個のデータから成るL次元のデータをサブフレーム長M(=L [0159] Here, as an example, each audio-only, the same size N learned only by tone, of the same dimension M codebooks CB A, as there is a CB B, the L dimension consisting of L data of a frame data X subframe length M (= L
/n)でベクトル量子化したとき、量子化後の歪みについて、符号帳CB Aを用いたときをE A (k)、符号帳CB / N) when vector quantization, with respect to the distortion after quantization, E the case of using the codebook CB A A (k), the codebook CB
Bを用いたときをE B (k)とする。 It is referred to as E B (k) when using B. これらの歪みE A (k)、 These distortions E A (k),
B (k)は、それぞれインデクスi,jが選ばれたとして、 E A (k)=‖W k Ai )‖ E B (k)=‖W k Bj )‖ である。 E B (k), as the index i, j was chosen respectively, E A (k) = ‖W k (X - C Ai) ‖ E B (k) = ‖W k (X - C Bj) ‖ it is. この式で、W kはサブフレームkでの重み付け行列を表し、 Ai Bjは符号帳CB A 、CB Bのそれぞれインデクスi,jに対応する代表ベクトルを表す。 In this formula, W k represents a weighting matrix of a subframe k, C Ai, C Bj denote representative vectors corresponding to the codebook CB A, each index i of the CB B, j.

【0160】このようにして得られた2つの歪みに対して、1フレーム内での歪みの総和により、そのフレームに最適な符号帳を採用することを考える。 [0160] For this way two strain obtained by the distortion sum of within 1 frame, consider adopting an optimal codebook in the frame. このときの選び方について、次の2つの方法が考えられる。 The choice of this time, can be considered the following two methods.

【0161】第1の方法として、全てのサブフレームにおいて、符号帳CB A及びCB Bのみを用いて量子化を行い、歪みのフレーム内総和Σ kA (k) 、Σ kB (k) を求め、小さい方の歪みの総和を与える符号帳CB A 、C [0161] As a first method, all of the sub-frame, performs quantization using only the codebooks CB A and CB B, the distortion of the frame summation Σ k E A (k), Σ k E B (k ) is obtained, codebooks CB a giving the sum of the distortion of the smaller, C
Bのいずれかを1フレームに亘って使用する。 One of B B is used over one frame.

【0162】この第1の方法を実現する構成例を図10 [0162] The configuration example of realizing the first method Figure 10
に示す。 To show. この図10では、上記図9と対応する部分に同じ参照番号を付しており、参照番号に添付したa、b、 In FIG. 10, it is denoted by the same reference numerals to portions corresponding to FIG 9, and attached to the reference numbers a, b,
・・・等の添字は、サブフレームkに対応している。 Subscript, such as ... corresponds to the sub-frame k. 符号帳CB Aについては、サブフレーム毎の歪みが得られる各減算器513a、513b、・・・、513nからの出力のフレーム内総和を加算器517でとり、符号帳CB Bについては各サブフレーム毎の歪みのフレーム内総和を加算器518でとって、これらを比較器515で比較することにより、コードブック切換のための制御信号あるいは選択フラグを端子503より得ている。 The codebook CB A, takes the subtracters 513a distortion of each sub-frame is obtained, 513b, · · ·, the frame total of the output from 513n in adder 517, each sub-frame for the codebook CB B taking frame sum distortion of each adder 518, by comparing them in a comparator 515, to obtain from the terminal 503 a control signal or a selection flag for codebook switching.

【0163】次に、第2の方法は、各サブフレーム毎に、歪みE A (k)、E B (k)を比較し、これらの比較結果をフレーム内の全サブフレームに亘って判断処理することにより符号帳を切換選択するものである。 [0163] Next, the second method, for each subframe, the strain E A (k), compare the E B (k), the determination process over these comparison results in all subframes in the frame is to switch selects a code book by.

【0164】この第2の方法の実現例を図11に示す。 [0164] shows the implementation of the second method in Figure 11.
この図11では、各サブフレーム毎に比較を行う比較器516からの出力を判断ロジック519に送って、例えば多数決などにより判断処理し、1ビットの符号帳切換選択フラグを端子503より得るようにしている。 In FIG. 11, send output from the comparator 516 for comparing each sub-frame determination logic 519, for example, by determining the processing majority, a 1-bit codebook switching selection flag of the so obtained from the terminal 503 ing.

【0165】なお、この選択フラグが、前述したS/M [0165] In addition, the selection flag, S / M described above
(音声/楽音)モードデータとして伝送されるものである。 Those transmitted as (voice / tone) mode data.

【0166】このようにして、複数の性質の異なる信号を、1つの量子化装置により効率よく量子化できる。 [0166] In this manner, signals of different more properties can be efficiently quantized by one quantizer.

【0167】次に、図1のFFT回路161、周波数シフト回路162、逆FFT回路163による周波数変換処理について説明する。 [0167] Next, the FFT circuit 161 of FIG. 1, the frequency shift circuit 162, the frequency conversion process by the inverse FFT circuit 163 will be described.

【0168】この周波数変換処理は、入力信号の内の少なくとも1つの帯域を取り出す帯域抽出工程と、抽出された少なくとも1つの帯域の信号を周波数軸上の信号に変換する直交変換工程と、直交変換された信号を周波数軸上で(他の位置に、他の帯域に)シフトさせるシフト工程と、周波数軸上でシフトされた信号を逆直交変換して時間軸上の信号に変換する逆直交変換工程とを有している。 [0168] The frequency conversion processing includes the orthogonal transform step of converting a band extraction step of taking at least one band of the input signal, a signal of at least one band was extracted into signals on the frequency axis, orthogonal transform (in other locations, other bands) signals the on the frequency axis inverse orthogonal transform into a signal on a shift step of shifting, time and inverse orthogonal transformation on the shifted signal on the frequency axis axis and a process.

【0169】図12は、上記周波数変換のための構成をより詳しく示した図であり、図1と対応する部分には同じ番号を付している。 [0169] Figure 12 is a diagram showing in more detail the arrangement for the frequency conversion, are denoted by the same reference numerals corresponding to those in FIG. 1. この図12において、入力端子1 In FIG. 12, the input terminal 1
01には、例えば16kHzサンプリングで0〜8KHzの成分を持つ広帯域音声信号が供給されている。 01, for example wideband speech signals having components of 0~8KHz at 16kHz sampling is supplied. この入力端子101からの広帯域音声信号の内、例えば0〜3. Of wideband speech signal from the input terminal 101, for example, 0-3.
8kHzを低域側信号としてLPF(ローパスフィルタ) LPF and 8kHz as lower frequency signal (low pass filter)
102により分離し、また元の広帯域信号からこの低域側信号を減算器151で差し引いた成分を高域側信号として分離する。 102 by separating, also separates the components of the low frequency side signal from the original broad-band signal by subtracting in a subtractor 151 as a high-frequency side signals. これらの低域側信号と高域側信号とを独立に処理するようにしている。 So that to handle and these lower frequency signals and higher frequency signals independently.

【0170】ここで得た高域側信号は、LPF102を介してもわずかに残っている3.5kHzから8kHzまでの4.5kHzの周波数幅を持つが、ダウンサンプリングして信号処理を行うため、4kHz幅まで狭めなくてはならない。 [0170] High-frequency signal obtained here is having a frequency width of 4.5kHz from 3.5kHz remaining slightly through the LPF102 to 8 kHz, for signal processing and downsampling, It must be narrowed to 4kHz width. この例では、7.5kHz〜8kHzの0.5kHz In this example, 0.5kHz of 7.5kHz~8kHz
分をBPF(バンドパスフィルタ)107あるいはLP Minute BPF (band pass filter) 107 or LP
Fによりカットしている。 It has been cut by F.

【0171】次に、低域側への周波数変換として例えばFFT(高速フーリエ変換)を行うが、これに先立って、フレーム分割回路108により、サンプル数を2のべき乗、例えば図13の(A)に示すように512サンプル毎に区切っている。 [0171] Next, is performed, for example, FFT as a frequency conversion to a lower frequency (fast Fourier transform), prior to this, the frame division circuit 108, a power of the number of samples 2, for example, FIG. 13 (A) delimiting every 512 samples as shown in. ただし、後での信号処理を行い易くするため、80サンプル毎に前進させている。 However, and in order to facilitate the signal processing of later it is advanced every 80 samples.

【0172】次に、ハミング窓かけ回路109により、 [0172] Next, the Hamming window over circuit 109,
長さ320サンプルのハミング窓をかける。 Applying a Hamming window of length 320 samples. このサンプル数の320は、上記フレーム分割の際に80サンプルずつ前進させており、後の重畳加算によるフレーム合成時に、図13の(B)に示すように4つの波形を重ねて加算できるようにするため、80の4倍としているものである。 320 The number of samples is advanced by 80 samples in the frame division, the time frame synthesis by superposition adding later to allow adding overlapping four waveforms as shown in (B) of FIG. 13 to, in which is four times the 80.

【0173】次に、この長さ512サンプルのデータに対して、FFT回路161によりFFT処理を行い、周波数軸上のデータに変換する。 [0173] Next, with respect to the length 512 samples of data, performs FFT processing by the FFT circuit 161, into data on the frequency axis.

【0174】次に、周波数シフト回路162により、周波数軸上でデータを他の位置あるいは他の帯域にシフトあるいは移動させる。 [0174] Then, the frequency shift circuit 162 shifts or moves the data on the frequency axis to another position or other bands. この周波数軸上でのシフトによってサンプリング周波数を低下させる原理は、図14に示すように、(A)の斜線部の高域側信号を(B)のように低域側に移動し、これを(C)に示すようにダウンサンプリングするものである。 The principle of lowering the sampling frequency by the shift on the frequency axis, as shown in FIG. 14, moves to the lower frequency side as the high frequency side signal of the hatched portion of (A) (B), this it is to down-sampling as shown in (C). 図14の(A)から(B) In FIG. 14 (A) (B)
への周波数軸上での移動の際に、fs/2 を中心に折り返される成分については、互いに逆の移動方向となっている。 During the movement on the frequency axis into, for components folded around the fs / 2, and has a moving direction opposite to each other. これによって、サブバンドの帯域がfs/2n 以内であれば、サンプリング周波数をfs/n に下げることができる。 Thus, the bandwidth of the subbands if it is within fs / 2n, it is possible to reduce the sampling frequency fs / n.

【0175】この周波数シフト回路162では、図15 [0175] In the frequency shift circuit 162, FIG. 15
に示すように、周波数軸上のデータの高域側に相当する斜線部のデータを、低域側に相当する周波数軸上の位置あるいは帯域にシフトあるいは移動させる処理を行えばよい。 As shown in the data of the shaded portion corresponding to a higher frequency side of the data on the frequency axis, it may be performed a process of shifting or moving the position or band on the frequency axis which corresponds to the low frequency side. 具体的に、512サンプルの時間軸上のデータをFFT処理して得られる周波数軸上の512個のデータに対して、113番目から239番目までの127個のデータを、1〜127番目の位置あるいは帯域に移動させ、また273番目から399番目までの127個のデータを、395〜511番目の位置あるいは帯域に移動させる。 Specifically, 512 data on the time axis of the sample with respect to 512 pieces of data on the frequency axis obtained by FFT processing, the 127 pieces of data from the 113 th to 239 th, 1-127 th position or it is moved to the band, also the 127 pieces of data from the 273 th to 399 th, moves to 395 to 511 th position or band. このとき、周波数軸上の112番目のデータを0番目の位置に移動させないことが重要である。 At this time, it is important not to move the 112th data on the frequency axis to the 0-th position. これは、周波数領域の信号では、0番目は直流成分であり、 This is the signal in the frequency domain, 0th is a DC component,
位相成分が無いため、この位置のデータは実数でなくてはならず、一般に複素数である周波数成分は、ここには入れられないからである。 Since there is no phase component data of the position must be a real number, typically frequency components is complex is because not here placed. また、fs/2 を表す256 Further, 256 representing the fs / 2
番目のデータ(一般にはN/2番目のデータ)も無効であり、ここは利用しない、すなわち、この場合の0〜4 Th (generally N / 2-th data) of the data is also disabled, this is not available, i.e., in this case 0-4
kHzの範囲は、厳密には0<f<4kHzと表される範囲のことである。 The kHz range is strictly is that the range expressed as 0 <f <4kHz.

【0176】次に、逆FFT回路163により逆FFT [0176] Next, the inverse FFT by the inverse FFT circuit 163
処理して、周波数軸上のデータを時間軸上の信号に戻す。 Processed and returned to the signal on the axis of the data on the frequency axis time. この場合512サンプル毎に時間軸上の信号が得られる。 Signal in this case on the time axis every 512 samples is obtained. この512サンプル毎の時間軸信号を、重畳加算回路166により図jの(B)に示すように80サンプルずつオーバーラップさせ、重なっている部分を足し合わせる。 The time domain signal for each 512-sample, are overlapped by 80 samples as shown in (B) of FIG j by superimposing the addition circuit 166 adds up the overlapping portion.

【0177】この重畳加算回路166から得られた信号は、16kHzサンプリングで0〜4kHzに制限されているので、ダウンサンプリング回路164によりダウンサンプリング処理する。 [0177] The signal resulting from this superposition adder circuit 166, because it is limited to 0~4kHz at 16kHz sampling, down-sampling processing by the down-sampling circuit 164. これにより周波数シフトされた8 This frequency-shifted 8
kHzサンプリングで0〜4kHzの信号を得ることができ、この信号が出力端子169を介して取り出されて、 In kHz sampling can be obtained a signal of 0-4 kHz, the signal is taken out through an output terminal 169,
図1のLPC分析・量子化部130やLPC逆フィルタ171に送られる。 It is sent to the LPC analysis quantization unit 130 and the LPC inverse filter 171 of Figure 1.

【0178】次に、デコード側での復元処理は、図16 [0178] Next, the restoration processing at the decoding side, FIG. 16
に示す構成により実現できる。 It can be realized by the configuration shown in.

【0179】この図16の構成は、上記図2のアップサンプリング回路233以降の構成に相当しており、対応する部分に同じ指示符号を付している。 [0179] The configuration of FIG. 16 is equivalent to the configuration of the subsequent up-sampling circuit 233 FIG 2 are denoted by the same reference numerals to the corresponding portions. ただし、図2においては、FFT処理の前にアップサンプリング処理を行っているが、図16の例では、FFT処理の後にアップサンプリング処理を行っている。 However, in FIG. 2 has been up-sampling processing prior to FFT processing, in the example of FIG. 16, is performed up-sampling processing after the FFT processing.

【0180】この図16において、端子241には、図2の高域側LPC合成フィルタ232からの出力信号のような、8kHzサンプリングで0〜4kHzにシフトされている高域側の信号が入力される。 [0180] In FIG. 16, the terminal 241, such as the output signal from the high-frequency side LPC synthesis filter 232 of FIG. 2, the signal of the high frequency side which is shifted 0~4kHz at 8kHz sampling is inputted that.

【0181】この信号は、フレーム分割回路242により、フレーム長が256サンプルで前進分が80サンプルの信号に区切られる。 [0181] This signal, the frame division circuit 242, the frame length is 256 advanced content in the sample is divided into 80 samples of the signal. これは、エンコード側のフレーム分割と同様な理由からであるが、サンプリング周波数が1/2となっているので、サンプル数も1/2となっている。 This is the same reason the frame division encoding side, since the sampling frequency becomes 1/2, the number of samples also becomes 1/2. また、ハミング窓かけ回路243により、フレーム分割回路242からの信号に長さ160サンプルのハミング窓がかけられることも、エンコード側と同様(ただしサンプル数は1/2)である。 Further, the Hamming windowing circuit 243, the Hamming window of the signal to the length 160 samples from the frame division circuit 242 is applied as well, similar to the encoding side (where the number of samples is 1/2) is.

【0182】次に、FFT回路234により長さ256 [0182] Next, the length by the FFT circuit 234 256
サンプルでFFT処理が施され、時間軸上の信号が周波数軸上の信号に変換される。 FFT processing is performed in the sample, the signal on the time axis is converted into a signal on the frequency axis. 次のアップサンプリング回路244においては、図15の(B)に示すようなゼロ埋め処理を施すことにより、実質的にフレーム長が21 In the next up-sampling circuit 244, by performing a zero fill process as shown in (B) of FIG. 15, it is substantially frame length 21
6サンプルから512サンプルになる。 Consisting of 512 samples from the six samples. これは、図14 This is, as shown in FIG. 14
の(C)から(B)への変換に相当する。 Corresponding from (C) to convert into (B).

【0183】次に、周波数シフト回路235により、周波数軸上でデータを他の位置あるいは他の帯域にシフトあるいは移動させることにより、+3.5kHzの周波数シフトを行う。 [0183] Then, the frequency shift circuit 235, by shifting or moving the data on the frequency axis to another position or another band, the frequency shift of + 3.5 kHz. これは、図14の(B)から(A)への変換に相当する。 This corresponds to a conversion of 14 from (B) to (A).

【0184】このようにして得られた周波数軸上の信号を、逆FFT回路236により逆FFT処理することにより、時間軸上の信号に戻す。 [0184] The signal on the frequency axis obtained in this way, by inverse FFT processing by the inverse FFT circuit 236, back to the signal on the time axis. この逆FFT回路236 The inverse FFT circuit 236
からの信号は、16kHzサンプリングで3.5kHz〜 Signals from, 3.5KHz~ at 16kHz sampling
7.5kHzとなっている。 It has become a 7.5kHz.

【0185】次の重畳加算回路237では、長さ512 [0185] In the next superimposed adder circuit 237, a length 512
サンプルのフレーム毎に、80サンプルずつオーバーラップさせて足し合わせ、連続する時間軸信号に戻す。 Each frame of the sample, are overlapped by 80 samples summed by, back to the time axis signal continuous. このようにして得られた高域側信号は、加算器228で低域側信号と加算され、出力端子229より取り出される。 Higher frequency signal was thus obtained, is added to the low frequency band signal in an adder 228, is taken out from an output terminal 229.

【0186】なお、このような周波数変換においては、 [0186] It should be noted that, in such a frequency conversion,
具体的な数値は上記の例に限定されず、シフトを行うバンド数も1つに限定されない。 Specific numerical values ​​are not limited to the above example, the number of bands to perform shifting is not limited to one.

【0187】例えば、図17に示すように、16kHzサンプリングで狭帯域信号を300Hz〜3.4kHz、広帯域信号を0〜7kHzとする場合に、狭帯域に含まれない低域0〜300Hzと、高域側の3.4kHz〜7kHzとの内、高域側を300Hz〜3.9kHzに移動して低域側と接触するように集めれば、0〜3.9kHzの信号となり、これも上述と同様にサンプリング周波数fs を1/ [0187] For example, as shown in FIG. 17, a narrow-band signal at 16kHz sampling 300 Hz to 3.4 kHz, when the wideband signal 0~7KHz, and the low frequency 0~300Hz not included in the narrow band high among the range of side 3.4KHz~7kHz, if Collect by moving the high frequency side in 300Hz~3.9kHz to contact the low-frequency side becomes a signal of 0~3.9KHz, also as described above the sampling frequency fs to 1 /
2の8kHzとすることができる。 It can be 2 of 8kHz.

【0188】これを一般化すれば、広帯域信号と、広帯域信号の内部に収まる狭帯域信号とを多重化する場合、 [0188] Generalizing this, when multiplexed with wideband signal and a narrowband signal that fits within the wideband signal,
広帯域信号から狭帯域信号を減算した残りの内の高域側成分を低域側にシフトして、サンプリングレートを下げるわけである。 The high frequency band components of the remainder obtained by subtracting the narrowband signal from the wideband signal shifted to a lower frequency side is not lower sampling rate.

【0189】このように、任意の周波数から任意の周波数のサブバンドを作ることができ、その周波数幅の総和の2倍のサンプリング周波数で処理可能であり、アプリケーションに柔軟に対応できる。 [0189] Thus, it is possible to make the sub-band of an arbitrary frequency from any frequency, it may be processed with a sampling frequency twice of the sum of the frequency width, flexible response to an application.

【0190】また、低ビットレートで量子化誤差が大きい場合、一般にQMFを利用すると分割周波数付近に発生したはずの折り返しノイズも、上記周波数変換方法によれば回避できる、という利点もある。 [0190] Further, when the quantization error at a low bit rate is greater, generally aliasing noise that would have occurred in the vicinity of the split frequency as utilizing QMF also be avoided according to the frequency conversion method, there is the advantage that.

【0191】なお、本発明は上記実施の形態のみに限定されるものではなく、例えば上記図1の音声符号化側(エンコード側)の構成や、図2の音声復号化側(デコード側)の構成については、各部をハードウェア的に記載しているが、いわゆるDSP(ディジタル信号プロセッサ)等を用いてソフトウェアプログラムにより実現することも可能である。 [0191] The present invention is not limited to the embodiment described above, for example, the configuration and the diagram 1 of the speech encoding side (encoding side), the speech decoding side of FIG. 2 (decoding side) the configuration has been described in each part as hardware, it may be realized by a software program using a DSP (digital signal processor) or the like. また、上記ベクトル量子化の代わりに、複数フレームのデータをまとめてマトリクス量子化を施してもよい。 Further, in place of the vector quantization, it may be subjected to matrix quantization collectively data of a plurality of frames. さらに、本発明が適用される音声符号化方法や復号化方法は、上記符号化復号化方法に限定されるものではなく、種々の音声符号化復号化方法に適用でき、用途としても、伝送や記録再生に限定されず、 Furthermore, the speech coding method and decoding method to which the present invention is applied is not limited to the above encoding and decoding methods can be applied to a variety of speech coding and decoding method, as applications, transmission Ya not limited to the recording and reproduction,
ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。 Pitch or speed conversion, speech synthesis by rule, or it is of course applicable to a variety of applications, such as noise suppression.

【0192】 [0192]

【発明の効果】以上の説明から明らかなように、本発明に係る音声符号化方法によれば、入力信号を帯域分割し、分割された少なくとも1つの高域側の信号を低域側に周波数変換し、低域側に変換された信号のサンプリングレートを低下させ、サンプリングレートが低下させられた信号を予測符号化することにより、符号化効率が向上し、低ビットレートで高品質な符号化が可能となる。 As apparent from the foregoing description, according to the speech encoding method according to the present invention, band-dividing an input signal, the frequency signals of divided at least one high frequency side to the low frequency side conversion, reduces the sampling rate of the signals converted to the low frequency side, by the sampling rate is prediction coding a signal which is reduced to improve the coding efficiency, high-quality coding at a low bit rate it is possible.
また、低域側と高域側とに分離して符号化することにより、広帯域の信号再生が行える。 Moreover, by encoding and separated into a low frequency side and high frequency side, can be performed wideband signal reproduction.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明に係る音声符号化方法の実施の形態が適用される音声信号符号化装置の基本構成を示すブロック図である。 1 is a block diagram showing a basic structure of a speech signal encoder embodiment of the speech coding method according to the present invention is applied.

【図2】音声信号復号化装置の基本構成を示すブロック図である。 2 is a block diagram showing a basic structure of a speech signal decoding apparatus.

【図3】他の音声信号符号化装置の構成を示すブロック図である。 3 is a block diagram showing the structure of another speech signal encoding apparatus.

【図4】伝送される符号化データのビットストリームのスケーラビリティを説明するための図である。 4 is a diagram for explaining the scalability of a bitstream of encoded data to be transmitted.

【図5】本発明が適用可能な符号化側のシステム全体を概略的に示すブロック図である。 [5] The entire system of the present invention is applicable encoding side is a block diagram schematically showing.

【図6】符号化、復号化の主要動作の周期及び位相関係を説明するための図である。 [6] encoding is a diagram for explaining the period and phase relationship of the main operation of decoding.

【図7】MDCT(モディファイド離散コサイン変換) [7] MDCT (modified discrete cosine transform)
係数のベクトル量子化の構成例を示す図である。 It is a diagram illustrating a configuration example of a vector quantization of the coefficients.

【図8】ポストフィルタ出力にかけられる窓関数の例を示す図である。 8 is a diagram showing an example of a window function applied to the post-filter output.

【図9】2種類のコードブックを有するベクトル量子化装置の例を示す図である。 9 is a diagram showing an example of a vector quantization apparatus having two types of codebooks.

【図10】2種類のコードブックを有するベクトル量子化装置の具体例を示す図である。 10 is a diagram showing a specific example of a vector quantization apparatus having two types of codebooks.

【図11】2種類のコードブックを有するベクトル量子化装置の他の具体例を示す図である。 11 is a diagram showing another specific example of the vector quantization apparatus having two types of codebooks.

【図12】周波数変換のエンコーダ側の構成を示すブロック図である。 12 is a block diagram showing the encoder-side configuration of the frequency converter.

【図13】フレーム分割及び重畳加算処理を説明するための図である。 13 is a diagram for explaining a frame division and superposition addition processing.

【図14】周波数軸上での周波数シフトの他の例を示す図である。 14 is a diagram showing another example of frequency shifting on the frequency axis.

【図15】周波数軸上のデータのシフト処理を示す図である。 15 is a diagram illustrating the shift processing of the data on the frequency axis.

【図16】周波数変換のデコーダ側の構成を示すブロック図である。 16 is a block diagram illustrating a decoder-side configuration of the frequency converter.

【図17】周波数軸上での周波数シフトの他の例を示す図である。 17 is a diagram showing another example of frequency shifting on the frequency axis.

【符号の説明】 DESCRIPTION OF SYMBOLS

111、171 LPC逆フィルタ 112、122 ピッチ逆フィルタ 113、123 MDCT(モディファイド離散コサイン変換)回路 114、124 VQ(ベクトル量子化)回路 115、125 ピッチ分析回路 116、118、126 ピッチゲインVQ回路 130、180 LPC分析・量子化部 161、234 FFT(高速フーリエ変換)回路 162、235 周波数シフト回路 163、236 逆FFT回路 111,171 LPC inverse filter 112, 122 pitch inverse filter 113 and 123 MDCT (Modified Discrete Cosine Transform) circuit 114, 124 VQ (vector quantization) circuit 115 and 125 pitch analysis circuit 116,118,126 pitch gain VQ circuit 130, 180 LPC analysis quantization unit 161,234 FFT (fast Fourier transform) circuit 162,235 frequency shift circuit 163,236 inverse FFT circuit

フロントページの続き (72)発明者 飯島 和幸 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Of the front page Continued (72) inventor Kazuyuki Iijima Shinagawa-ku, Tokyo Kita 6-chome No. 7 No. 35, Sony over the Corporation

Claims (6)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 入力信号を帯域分割する帯域分割工程と、 分割された少なくとも1つの高域側の信号を低域側に周波数変換する周波数変換工程と、 低域側に変換された信号のサンプリングレートを低下させるサンプリングレート低下工程と、 サンプリングレートが低下させられた信号を予測符号化する工程とを有することを特徴とする信号符号化方法。 1. A a band dividing step of band-splitting the input signal, divided at least one frequency conversion step of frequency-converted to a high frequency side of the signal low-frequency side, of the signals converted to the low frequency side sampling signal encoding method characterized in that it comprises a sampling rate reduction step of reducing the rate and the step of sampling rate is prediction coding a signal which is reduced.
  2. 【請求項2】 上記帯域分割工程は、広帯域の入力信号を、電話帯域と、この電話帯域よりも高域側とに分割することを特徴とする請求項1記載の信号符号化方法。 Wherein said band division step, the wideband input signal, the telephone band and a signal coding method according to claim 1, characterized by divided into a higher frequency side than the telephone band.
  3. 【請求項3】 上記周波数変換工程は、上記分割された少なくとも1つの高域側の信号に対して直交変換を行った後、低域側に周波数シフト処理を行い、さらに、逆直交変換を行うことを特徴とする請求項1記載の信号符号化方法。 Wherein said frequency conversion step, after performing an orthogonal transformation on the at least one high frequency side of the signal of the divided, performs frequency shift processing to the low frequency side, further, performs inverse orthogonal transform signal encoding method according to claim 1, wherein a.
  4. 【請求項4】 上記直交変換は、高速フーリエ変換であることを特徴とする請求項3記載の信号符号化方法。 Wherein said orthogonal transform is a signal encoding method according to claim 3, characterized in that the fast Fourier transform.
  5. 【請求項5】 上記予測符号化する工程は、上記サンプリングレート低下させられた信号を、線形予測しこのとき得られる線形予測係数を表現するパラメータ及び予測残差を量子化したものを取り出すことを特徴とする請求項1記載の信号符号化方法。 5. A process for the predictive coding, to retrieve those signals are reduced the sampling rate, and quantization parameters and prediction residual LPC representing the linear prediction coefficient obtained at this time signal encoding method according to claim 1, wherein.
  6. 【請求項6】 入力信号を帯域分割する帯域分割手段と、 分割された少なくとも1つの高域側の信号を低域側に周波数変換する周波数変換手段と、 低域側に変換された信号のサンプリングレートを低下させるサンプリングレート低下手段と、 サンプリングレートが低下させられた信号を予測符号化する手段とを有することを特徴とする信号符号化装置。 6. A band division means for band-dividing an input signal, divided at least one frequency conversion means for a high frequency side of the signal frequency-converted into a low-frequency side, of the signals converted to the low frequency side sampling signal encoding apparatus characterized in that it comprises a sampling rate reduction means for reducing the rate, and means for sampling rate is prediction coding a signal which is reduced.
JP30212895A 1995-10-26 1995-10-26 Signal coding method and device therefor Withdrawn JPH09127985A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30212895A JPH09127985A (en) 1995-10-26 1995-10-26 Signal coding method and device therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30212895A JPH09127985A (en) 1995-10-26 1995-10-26 Signal coding method and device therefor

Publications (1)

Publication Number Publication Date
JPH09127985A true true JPH09127985A (en) 1997-05-16

Family

ID=17905263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30212895A Withdrawn JPH09127985A (en) 1995-10-26 1995-10-26 Signal coding method and device therefor

Country Status (1)

Country Link
JP (1) JPH09127985A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090870A1 (en) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba Method and apparatus for encoding or decoding wide-band audio
US6865534B1 (en) 1998-06-15 2005-03-08 Nec Corporation Speech and music signal coder/decoder
WO2006030865A1 (en) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus
JP2007079306A (en) * 2005-09-15 2007-03-29 Victor Co Of Japan Ltd Audio signal processing apparatus and audio signal processing method
JPWO2006028010A1 (en) * 2004-09-06 2008-05-08 松下電器産業株式会社 Scalable encoding apparatus and scalable encoding method
US7486719B2 (en) 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
US7684979B2 (en) 2002-10-31 2010-03-23 Nec Corporation Band extending apparatus and method
JP2010510540A (en) * 2006-11-17 2010-04-02 サムスン エレクトロニクス カンパニー リミテッド Audio and / or speech signal encoding and / or decoding method and apparatus

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865534B1 (en) 1998-06-15 2005-03-08 Nec Corporation Speech and music signal coder/decoder
US7684979B2 (en) 2002-10-31 2010-03-23 Nec Corporation Band extending apparatus and method
US7486719B2 (en) 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
US8315861B2 (en) 2003-04-04 2012-11-20 Kabushiki Kaisha Toshiba Wideband speech decoding apparatus for producing excitation signal, synthesis filter, lower-band speech signal, and higher-band speech signal, and for decoding coded narrowband speech
US8260621B2 (en) 2003-04-04 2012-09-04 Kabushiki Kaisha Toshiba Speech coding method and apparatus for coding an input speech signal based on whether the input speech signal is wideband or narrowband
US8249866B2 (en) 2003-04-04 2012-08-21 Kabushiki Kaisha Toshiba Speech decoding method and apparatus which generates an excitation signal and a synthesis filter
US7788105B2 (en) 2003-04-04 2010-08-31 Kabushiki Kaisha Toshiba Method and apparatus for coding or decoding wideband speech
US8160871B2 (en) 2003-04-04 2012-04-17 Kabushiki Kaisha Toshiba Speech coding method and apparatus which codes spectrum parameters and an excitation signal
WO2004090870A1 (en) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba Method and apparatus for encoding or decoding wide-band audio
US8024181B2 (en) 2004-09-06 2011-09-20 Panasonic Corporation Scalable encoding device and scalable encoding method
JPWO2006028010A1 (en) * 2004-09-06 2008-05-08 松下電器産業株式会社 Scalable encoding apparatus and scalable encoding method
US7848925B2 (en) 2004-09-17 2010-12-07 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus
WO2006030865A1 (en) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus
US8712767B2 (en) 2004-09-17 2014-04-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus
JP2007079306A (en) * 2005-09-15 2007-03-29 Victor Co Of Japan Ltd Audio signal processing apparatus and audio signal processing method
JP2010510540A (en) * 2006-11-17 2010-04-02 サムスン エレクトロニクス カンパニー リミテッド Audio and / or speech signal encoding and / or decoding method and apparatus

Similar Documents

Publication Publication Date Title
Spanias Speech coding: A tutorial review
US6094629A (en) Speech coding system and method including spectral quantizer
US7454330B1 (en) Method and apparatus for speech encoding and decoding by sinusoidal analysis and waveform encoding with phase reproducibility
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
US6041297A (en) Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
US5873059A (en) Method and apparatus for decoding and changing the pitch of an encoded speech signal
US6098036A (en) Speech coding system and method including spectral formant enhancer
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6067511A (en) LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US20050165603A1 (en) Method and device for frequency-selective pitch enhancement of synthesized speech
US7707034B2 (en) Audio codec post-filter
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US20110202355A1 (en) Audio Encoding/Decoding Scheme Having a Switchable Bypass
US5749065A (en) Speech encoding method, speech decoding method and speech encoding/decoding method
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
US20090063140A1 (en) Encoding and decoding of audio signals using complex-valued filter banks
JP2004102186A (en) Device and method for sound encoding
US5819212A (en) Voice encoding method and apparatus using modified discrete cosine transform
US5983173A (en) Envelope-invariant speech coding based on sinusoidal analysis of LPC residuals and with pitch conversion of voiced speech
WO2005078706A1 (en) Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx
JP2003323199A (en) Device and method for encoding, device and method for decoding
JPH08123495A (en) Wide-band speech restoring device
JPH08263096A (en) Acoustic signal encoding method and decoding method
JPH1130997A (en) Voice coding and decoding device

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030107