JP3490325B2 - Audio signal encoding method and decoding method, and encoder and decoder thereof - Google Patents

Audio signal encoding method and decoding method, and encoder and decoder thereof

Info

Publication number
JP3490325B2
JP3490325B2 JP03811299A JP3811299A JP3490325B2 JP 3490325 B2 JP3490325 B2 JP 3490325B2 JP 03811299 A JP03811299 A JP 03811299A JP 3811299 A JP3811299 A JP 3811299A JP 3490325 B2 JP3490325 B2 JP 3490325B2
Authority
JP
Japan
Prior art keywords
codebook
component
band
encoding
khz
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03811299A
Other languages
Japanese (ja)
Other versions
JP2000235399A (en
Inventor
登 原田
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP03811299A priority Critical patent/JP3490325B2/en
Publication of JP2000235399A publication Critical patent/JP2000235399A/en
Application granted granted Critical
Publication of JP3490325B2 publication Critical patent/JP3490325B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、音声信号を入力
し、入力された音声信号と合成された再生信号の間の歪
みを定められた距離尺度で最小にすることにより、少な
い情報量でディジタル符号化する高能率音声符号化方
法、その復号方法およびその符号化器、復号器に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a digital signal with a small amount of information by inputting an audio signal and minimizing distortion between the input audio signal and the synthesized reproduction signal on a predetermined distance scale. The present invention relates to a high-efficiency speech coding method for coding, a decoding method thereof, an encoder and a decoder thereof .

【0002】[0002]

【従来の技術】ディジタル移動体通信において電波を効
率的に利用したり、音声または音楽蓄積サービス等で通
信回線や記憶媒体を効率的に利用するために、高能率音
声信号符号化方法が用いられる。音声符号化方式として
は、3.4kHz以下に周波数帯域を制限した電話帯域
音声を対象とした符号化方式と、7kHz帯域までの周
波数帯域を含んだ音声を対象とした符号化方式が一般的
に利用されている。これらの符号化方式にはITU−T
の標準方式であるG.723.1,G.729,G.7
22等がある。
2. Description of the Related Art A high-efficiency voice signal coding method is used in order to efficiently use radio waves in digital mobile communications and to efficiently use communication lines and storage media in voice or music storage services. . As a voice encoding method, generally, an encoding method for telephone band voice whose frequency band is limited to 3.4 kHz or less and an encoding method for voice including a frequency band up to 7 kHz band are generally used. It's being used. These encoding methods include ITU-T
G.G. 723.1, G.I. 729, G.I. 7
There are 22 etc.

【0003】これらのうち、7kHz帯域の符号化方式
では自然性は高いが、比較的ビットレートが高く、電話
帯域の符号化方式では、ビットレートは比較的低いもの
が多いが、自然性の面では7kHz帯域の符号化方式に
及ばないといった特徴がある。実際の応用では、さまざ
まな要件条件に応じてこれらの符号化方式を選択して用
いることが多い。
Of these, the 7 kHz band coding system has a high naturalness, but has a relatively high bit rate, and the telephone band coding system often has a relatively low bit rate, but it is natural. Has a feature that it does not reach the encoding system of the 7 kHz band. In actual applications, these coding methods are often selected and used according to various requirements.

【0004】比較的低いビットレートで音声を符号化す
る方式としては、特に符号駆動線形予測符号化(Cod
e−Excited Linear Predicti
on:CELP)と呼ばれる方式が利用されることが多
い。この技術の詳細については、文献M.R.Schr
oeder and B.S.Atal,“Code−
Excited Linear Prediction
(CELP):High Quality Speec
h at Very Low Bit Rates”,
IEEE Proc.ICASSP−85,pp.93
7−940,1985に記載されている。
Code-driven linear predictive coding (Cod) is one of the methods for coding speech at a relatively low bit rate.
e-Excited Linear Predicti
The method called on: CELP) is often used. For details of this technique, refer to the document M. R. Schr
oeder and B.I. S. Atal, "Code-
Excited Linear Prediction
(CELP): High Quality Spec
h at Very Low Bit Rates ”,
IEEE Proc. ICASSP-85, pp. 93
7-940,1985.

【0005】図10にこの符号化方法の機能的構成を示
す。入力端子に入力された音響信号(入力音声)を用い
て、線形予測分析部1−2において、入力音声の周波数
スペクトル包絡特性を表す線形予測パラメータが計算さ
れる。得られた線形予測パラメータは線形予測パラメー
タ符号化部1−3において符号化されて線形予測パラメ
ータ復号部1−4に送られる。また、歪み計算に聴覚特
性を考慮するなど、入力音声のスペクトル情報を利用し
て歪み計算を行う場合には、線形予測パラメータは歪み
計算部1−7へも送られる。線形予測パラメータ復号部
1−4では、受け取った符号から合成フィルタ係数を再
生し、合成フィルタ1−6に送る。歪み計算に聴覚特性
を考慮する場合に、上記復号された線形予測パラメータ
を歪み計算に使用することもできる。なお、線形予測分
析の詳細および線形予測パラメータの符号化例について
は、例えば古井貞煕著“ディジタル音声処理”(東海大
学出版会)に記載されている。ここで、線形予測分析部
1−2、線形予測パラメータ符号化部1−3、線形予測
パラメータ復号部1−4および合成フィルタ1−6は非
線型なものに置き換えてもよい。
FIG. 10 shows a functional configuration of this encoding method. A linear prediction parameter representing the frequency spectrum envelope characteristic of the input voice is calculated in the linear prediction analysis unit 1-2 using the acoustic signal (input voice) input to the input terminal. The obtained linear prediction parameter is coded by the linear prediction parameter coding unit 1-3 and sent to the linear prediction parameter decoding unit 1-4. Further, when the distortion calculation is performed using the spectral information of the input voice such as considering the auditory characteristics in the distortion calculation, the linear prediction parameter is also sent to the distortion calculation unit 1-7. The linear prediction parameter decoding unit 1-4 reproduces the synthesis filter coefficient from the received code and sends it to the synthesis filter 1-6. When the auditory characteristics are taken into consideration in the distortion calculation, the decoded linear prediction parameter may be used in the distortion calculation. Details of the linear prediction analysis and an example of coding the linear prediction parameters are described in, for example, "Digital Speech Processing" by Sadahiro Furui (Tokai University Press). Here, the linear prediction analysis unit 1-2, the linear prediction parameter encoding unit 1-3, the linear prediction parameter decoding unit 1-4, and the synthesis filter 1-6 may be replaced with non-linear ones.

【0006】駆動音源ベクトル生成部1−5では、1フ
レーム分の長さの駆動音源ベクトル候補を生成し、合成
フィルタ1−6に送る。図11に駆動音源ベクトル生成
部1−5の機能的構成例を示す。適応符号帳2−1から
はそのバッファに記憶された直前の過去の駆動音源ベク
トル(既に量子化された直前の1〜数フレーム分の駆動
音源ベクトル)c(t−1)を、ある周期に相当する長
さで切り出し、その切り出したベクトルを、フレームの
長さになるまで繰り返すことによって、音声の周期成分
に対応する時系列ベクトルの候補が出力される。上記
「ある周期」とは歪み計算部1−7における歪みdが小
さくなるような周期が選択されるが、選択された周期
は、一般には音声のピッチ周期に相当することが多い。
The driving sound source vector generation unit 1-5 generates driving sound source vector candidates having a length of one frame and sends them to the synthesis filter 1-6. FIG. 11 shows a functional configuration example of the driving sound source vector generation unit 1-5. From the adaptive codebook 2-1, the immediately preceding past driving excitation vector (driving excitation vector for one to several frames immediately before being already quantized) c (t-1) stored in the buffer is set to a certain cycle. By cutting out with a corresponding length and repeating the cut out vector until the length of the frame is reached, candidates for the time-series vector corresponding to the periodic component of the speech are output. The "certain cycle" is selected as a cycle in which the distortion d in the distortion calculation unit 1-7 is small, and the selected cycle generally corresponds to the pitch cycle of the voice.

【0007】固定符号帳2−2からは、音声の非周期成
分に対応する1フレーム分の長さの時系列符号ベクトル
候補が出力される。これらの候補は入力音声信号とは独
立に符号化のためのビット数に応じてあらかじめ指定さ
れた数の候補ベクトルとして記憶されたものである。固
定符号帳2−2から出力された固定符号ベクトル候補
は、周期化部2−3において、周期符号で指定される周
期(上記のように一般にピッチ周期に相当)で必要に応
じて周期化される。周期化とは、指定された周期位置に
タップを持つ櫛形フィルタをかけるか、適応符号帳と同
様にベクトルの先頭から指定された周期に相当する長さ
で切り出したベクトルを繰り返すことをいう。周期化部
2−3は、符号化効率向上の点から用いられることが多
いが、用いられない場合もある。また、子音区間など、
音声そのものにピッチ成分がないかまたは少ない場合な
どには、周期化部は何の働きもしない場合もある。
From fixed codebook 2-2, a time-series code vector candidate having a length of one frame corresponding to an aperiodic component of speech is output. These candidates are stored as a predetermined number of candidate vectors according to the number of bits for coding, independently of the input speech signal. The fixed code vector candidates output from the fixed codebook 2-2 are, in the periodization unit 2-3, periodicized as necessary with a period (generally equivalent to the pitch period as described above) specified by the periodic code. It Periodization refers to applying a comb filter having a tap at a specified cycle position, or repeating a vector cut out at a length corresponding to a specified cycle from the beginning of the vector as in the adaptive codebook. The periodicization unit 2-3 is often used from the viewpoint of improving coding efficiency, but it may not be used in some cases. Also, such as consonant section,
In the case where the voice itself has no or little pitch component, in some cases, the cycler does not work.

【0008】適応符号帳2−1および、周期化部2−3
から出力された時系列ベクトルの候補は、乗算部2−
4、2−5において、それぞれ重み作成部2−7で生成
された重みga,gfが乗算され、加算部2−6におい
て加算され、駆動音源ベクトルの候補cとなる。図11
の構成例において、適応符号帳2−1を用いないで、固
定符号帳2−2のみの構成としてもよく、子音部や背景
雑音などのピッチ周期性の少ない信号を符号化するとき
には、ビットを節約するために、適応符号帳2−1を用
いない構成にすることも多い。
Adaptive codebook 2-1 and periodicizing section 2-3
The candidate of the time series vector output from the multiplication unit 2-
In 4 and 2-5, the weights ga and gf generated in the weight generating unit 2-7 are respectively multiplied, and added in the adding unit 2-6 to become the driving sound source vector candidate c. Figure 11
In the configuration example of 1., the adaptive codebook 2-1 may not be used, and only the fixed codebook 2-2 may be configured. When encoding a signal with a small pitch periodicity such as a consonant part or background noise, bits are In order to save the cost, it is often the case that the adaptive codebook 2-1 is not used.

【0009】図10中の合成フィルタ1−6は、線形予
測パラメータ復号部1−3の出力をフィルタの係数とす
る線形フィルタで、駆動音源ベクトル候補cを入力とし
て再生音声の候補yを出力する。合成フィルタ1−6の
次数すなわち線形予測分析の次数は、一般に10〜16
次程度が用いられることが多い。なお、既に述べたよう
に、合成フィルタ1−6は非線型なフィルタでもよい。
A synthesis filter 1-6 shown in FIG. 10 is a linear filter which uses the output of the linear prediction parameter decoding unit 1-3 as a filter coefficient, and outputs a candidate y of a reproduced voice with a driving sound source vector candidate c as an input. . The order of the synthesis filter 1-6, that is, the order of the linear prediction analysis is generally 10 to 16.
The following are often used: As described above, the synthesis filter 1-6 may be a non-linear filter.

【0010】歪み計算部1−7では、合成フィルタ1−
6の出力である再生音声の候補yと、入力音声xとの歪
みdを計算する。この歪みの計算は、例えば聴覚重み付
けなど、合成フィルタ1−6の係数または量子化してい
ない線形予測係数を考慮に入れて行うことが多い。図1
2に、聴覚重み付けを考慮して歪み計算する機能的構成
例を示した。聴覚重み付けは、量子化していない線形予
測パラメータもしくは量子化された線形予測フィルタ係
数を用いた、聴覚重みフィルタ3−2,3−3の形で構
成される。合成フィルタ3−1から出力される再生音声
候補yは、聴覚重みフィルタ3−2を通され、同じく聴
覚重みフィルタ3−3に通された入力音声との間で、歪
みdが計算される。ここで、聴覚重みフィルタ3−2,
3−3は、距離計算部3−4の後に1つのフィルタとし
て入れても等価であるが、処理量の点から、図12に示
したように、距離計算部3−4の手前で2ケ所に分けて
入れることが多い。
In the distortion calculation section 1-7, the synthesis filter 1-
The distortion d between the reproduced voice candidate y which is the output of No. 6 and the input voice x is calculated. This distortion calculation is often done taking into account the coefficients of the synthesis filters 1-6 or the unquantized linear prediction coefficients, for example auditory weighting. Figure 1
2 shows an example of a functional configuration in which distortion is calculated in consideration of auditory weighting. Perceptual weighting is configured in the form of perceptual weighting filters 3-2, 3-3 using unquantized linear prediction parameters or quantized linear prediction filter coefficients. The reproduced voice candidate y output from the synthesis filter 3-1 is passed through the perceptual weighting filter 3-2, and the distortion d is calculated with the input voice also passed through the perceptual weighting filter 3-3. Here, the auditory weight filter 3-2
3-3 is equivalent even if it is inserted as one filter after the distance calculation unit 3-4, but in terms of processing amount, as shown in FIG. 12, there are two locations before the distance calculation unit 3-4. Often divided into

【0011】図10中の符号帳検索制御部1−9では、
各再生音声候補yと入力音声xとの歪みdが最小となる
ような駆動音源符号を選択し、そのフレームにおける駆
動音源ベクトルを決定する。なお、図11に示した適応
符号帳2−1、固定符号帳2−2、重み符号帳2−3を
用いる場合には、これらに対する周期符号、固定符号、
および重み符号を選択し、それらを駆動音源とする。
In the codebook search controller 1-9 shown in FIG.
A driving sound source code that minimizes the distortion d between each reproduced sound candidate y and the input sound x is selected, and the driving sound source vector in that frame is determined. When the adaptive codebook 2-1, fixed codebook 2-2, and weight codebook 2-3 shown in FIG. 11 are used, the periodic code, fixed code,
And weight codes are selected and used as the driving sound source.

【0012】符号帳検索制御部1−9において決定され
た駆動音源符号(周期符号、固定(雑音)符号、重み符
号)と、線形予測パラメータ符号化部1−2の出力であ
る線形予測パラメータ符号は、符号送出部1−10に送
られ、利用の形態に応じて記憶装置に記憶されるか、ま
たは通信路を介して受信側へ送られる。つまり、音声の
フレームごとの短期予測成分が線形予測パラメータ符号
として、この短期予測成分の予測残差成分中のフレーム
よりも長い周期的な成分が、周期符号として、その残り
の成分が固定(雑音)符号として、また周期的な成分と
その残りの成分の振幅が重み符号としてそれぞれ符号化
される。
The driving excitation code (periodic code, fixed (noise) code, weight code) determined by the codebook search control unit 1-9 and the linear prediction parameter code output from the linear prediction parameter coding unit 1-2. Is sent to the code sending unit 1-10 and is stored in the storage device or sent to the receiving side via the communication path depending on the form of use. That is, the short-term prediction component for each frame of speech is used as a linear prediction parameter code, and the periodic component longer than the frame in the prediction residual component of this short-term prediction component is used as the periodic code and the remaining components are fixed (noise). ) Code, and the amplitudes of the periodic component and the remaining component are encoded as weight codes.

【0013】図13に、上記符号化方法に対応する復号
方法の機能的構成例を示す。伝送路または記憶媒体から
受信された符号のうち、線形予測パラメータ符号は線形
予測パラメータ復号部4−2において合成フィルタ係数
に復号され、合成フィルタ4−4および必要に応じて後
処理部4−5に送られる。受信された駆動音源符号は、
駆動音源ベクトル生成部4−3に送られ、符号に対応す
る音源ベクトルが生成される。なお、駆動音源生成部4
−3の構成は、図10に示した符号化方法の駆動音源ベ
クトル生成部1−4に対応する構成となる。合成フィル
タ4−4は、駆動音源ベクトルを入力として、音声を再
生する。後処理部4−5は、再生された音声の雑音感を
聴覚的に低下させるような処理(ポストフィルタリング
とも呼ばれる)を行うが、後処理部3−5は処理量の削
減等の関係から用いられないことも多い。
FIG. 13 shows an example of the functional configuration of a decoding method corresponding to the above encoding method. Among the codes received from the transmission path or the storage medium, the linear prediction parameter code is decoded into the synthesis filter coefficient in the linear prediction parameter decoding unit 4-2, and the synthesis filter 4-4 and, if necessary, the post-processing unit 4-5. Sent to. The received excitation code is
It is sent to the driving sound source vector generation unit 4-3, and the sound source vector corresponding to the code is generated. The driving sound source generator 4
The configuration of -3 corresponds to the drive excitation vector generation unit 1-4 of the encoding method shown in FIG. The synthesis filter 4-4 receives the driving sound source vector as an input and reproduces a voice. The post-processing unit 4-5 performs a process (also referred to as post-filtering) that aurally reduces the noise sensation of the reproduced voice, but the post-processing unit 3-5 is used because of the reduction of the processing amount and the like. There are many things that cannot be done.

【0014】CELP方式の駆動音源ベクトル探索法の
ひとつとして、AlgebraicCode−Exci
ted Linear Prediction(ACE
LP)という方式が提案されている。この方式は、固定
符号帳を、フレーム長のベクトルパターンとして蓄える
のではなく、高さが1のパルスをフレーム内に数本、例
えば80サンプルのフレームまたはサブフレームに対し
て、4本、適当な位置に立てることによって、固定符号
ベクトルとする方式で、この駆動音源方式の採用と、歪
み計算において演算順序を工夫することによって、従来
の方式に比べて演算処理とメモリの必要量を減らすこと
ができる。なお、ACELP方式の詳細は、例えば、文
献、R.Salami,C.Laflamme,and
J−P.Adoul,“8kbit/s ACELP
Coding of Speech with 10
ms Speech−Frame:a Candida
te for CCITT Standardizat
ion”,IEEE Proc.ICASSP−94,
pp.II−97に記載されている。
As one of the driving sound source vector search methods of the CELP system, Algebraic Code-Exci
ted Linear Prediction (ACE
LP) has been proposed. This method does not store the fixed codebook as a vector pattern of the frame length, but rather several pulses with a height of 1 in a frame, for example, four pulses for a frame or subframe of 80 samples. By setting it to the position, a fixed code vector is adopted, and by adopting this driving sound source method and devising the calculation order in distortion calculation, it is possible to reduce the amount of calculation processing and memory required compared to the conventional method. it can. The details of the ACELP method are described in, for example, the literature, R.M. Salami, C.I. Laflamme, and
J-P. Adoul, “8kbit / s ACELP
Coding of Speech with 10
ms Speech-Frame: a Candida
te for CCITT Standardizatat
Ion ", IEEE Proc. ICASSP-94,
pp. II-97.

【0015】[0015]

【発明が解決しようとする課題】人間の音声に含まれる
周波数成分は、一般に7kHz以下の帯域に集中する。
3.4kHz以下に帯域制限すると、情報量は減り予測
が容易になるため圧縮符号化効率は良くする反面、自然
性や個人性情報の一部が失われる。このことから3.4
kHz帯域の音声を入力対象にした場合には、8kbi
t/s程度のビットレートでも比較的高いS/Nを実現
可能であるが、7kHz帯域の音声に比べて原音レベル
で自然性に劣化が生じているため、自然性のよい音声を
再生することはできない。
The frequency components contained in human voice are generally concentrated in a band of 7 kHz or less.
If the band is limited to 3.4 kHz or less, the amount of information is reduced and prediction is facilitated, so that the compression coding efficiency is improved, but part of the naturalness and individuality information is lost. From this, 3.4
When inputting a voice in the kHz band, 8 kbi
It is possible to achieve a relatively high S / N even at a bit rate of about t / s, but the naturalness is deteriorated at the original sound level compared to the sound in the 7 kHz band, so it is necessary to reproduce sound with good naturalness. I can't.

【0016】それに対して入力対象の音声を7kHz帯
域で取得すれば入力音声自体の自然性は非常に高いが、
情報量が多いため、低ビットレート、たとえば4〜6k
bit/s程度で高品質な音声を実現するのは非常に困
難である。3.4kHz帯域の音声を入力するには8k
Hz程度のサンプリングレートが必要で、量子化ビット
数を16bitとすれば16×8000bit/sの情
報量になる。これに対して7kHz帯域の音声を入力す
るには16kHz程度のサンプリングレートが必要で、
量子化ビット数を16bitとした場合には16×16
000bit/sの情報量になる。低域にパワーが集中
しているという音声の特徴を利用すれば0〜3.4kH
zに比べて3.4〜7kHzの方が少ない情報量で表現
可能であるが、7kHz帯域の音声では周波数成分短期
予測およびピッチ成分長期予測の両方に関して、高域に
予測しにくい成分を含んでいるため、3.4kHz帯域
の音声を符号化するのと同程度までビットレートを削減
することは非常に困難である。
On the other hand, if the voice to be input is acquired in the 7 kHz band, the naturalness of the input voice itself is very high.
Due to the large amount of information, low bit rate, for example 4-6k
It is very difficult to realize high quality voice at about bit / s. 8k to input the sound of 3.4kHz band
A sampling rate of about Hz is required, and if the quantization bit number is 16 bits, the amount of information is 16 × 8000 bits / s. On the other hand, a sampling rate of about 16 kHz is required to input the sound of 7 kHz band,
16 × 16 when the number of quantization bits is 16 bits
The amount of information is 000 bits / s. If you use the feature of voice that power is concentrated in the low frequency range , 0-3.4kHz
Compared with z, 3.4 to 7 kHz can be expressed with a smaller amount of information, but in the case of 7 kHz speech, it is difficult to predict in the high frequency region for both short-term frequency component prediction and long-term pitch component prediction. Therefore, it is very difficult to reduce the bit rate to the same extent as when encoding speech in the 3.4 kHz band.

【0017】また、ビットレート可変の低ビットレート
音声符号化方式では、フレーム単位でビットレートを可
変制御する場合に、符号化効率と遅延の関係から問題が
生じる場合がある。たとえば様々な種類のビットレート
モードに対応している符号化方式において、品質の制約
からビットレートを低くするほどフレーム長も長くなる
などの制約がある場合が多い。このような可変ビットレ
ート実現方式では、再生途中でフレーム単位にビットレ
ートを変更すると、遅延の制約から音が途切れる等の問
題点が生じる。あるいは遅延の最も長いビットレートモ
ードに全体の遅延を合わせる方法があるが、その場合に
は遅延の短いモードでの性能を最大限に発揮できないと
いう問題点が残る。
In addition, in the low bit rate audio encoding method with variable bit rate, when the bit rate is variably controlled in frame units, a problem may occur due to the relationship between encoding efficiency and delay. For example, in encoding systems that support various kinds of bit rate modes, there are many restrictions due to quality restrictions, such that the lower the bit rate, the longer the frame length. In such a variable bit rate realizing method, if the bit rate is changed in units of frames during reproduction, there is a problem that sound is interrupted due to delay constraint. Alternatively, there is a method of adjusting the total delay to the bit rate mode having the longest delay, but in that case, there remains a problem that the performance in the mode having the shortest delay cannot be maximized.

【0018】この発明では、上述したような従来法の欠
点に鑑みてなされたもので、7kHz帯域の音声符号化
方式に比べて品質の劣化を抑えたまま圧倒的に低いビッ
トレートで、3.4kHz帯域の音声符号化方式に比べ
ては、同程度のビットレートで圧倒的に自然性の高い高
品質な音声を再生できる音声信号符号化方法、復号方法
およびその符号化器、復号器を提供することをその目的
とする。また音が途切れることなくフレーム単位で連続
的にビットレートを変えることができる音声信号符号化
方法および符号化器を提供することにある。
The present invention has been made in view of the above-mentioned drawbacks of the conventional method, and has an overwhelmingly low bit rate while suppressing deterioration of quality as compared with the voice encoding system of the 7 kHz band. An audio signal encoding method and a decoding method capable of reproducing high-quality audio with overwhelmingly high naturalness at a bit rate comparable to that of an audio encoding method in the 4 kHz band.
It is an object of the present invention to provide an encoder and a decoder thereof. Another object of the present invention is to provide an audio signal encoding method and an encoder capable of continuously changing the bit rate in frame units without interruption of sound.

【0019】[0019]

【課題を解決するための手段】この発明では、入力音声
の周波数帯域を5kHz程度、つまり4.5kHz帯域
〜5.5kHz帯域に特化することで音声に含まれる情
報量と符号化効率のバランスをとり、従来の7kHz帯
域の入力音声を対象とした符号化方式に比べて圧倒的に
低いビットレートで符号化でき、3.4kHz帯域の入
力音声を対象とした符号化方式に比べては、同程度の低
いビットレートで圧倒的に自然性の高い音声を再生でき
る。
According to the present invention, by balancing the frequency band of input speech to about 5 kHz, that is, 4.5 kHz to 5.5 kHz, the amount of information contained in speech and the coding efficiency are balanced. Therefore, it is possible to perform encoding at an overwhelmingly lower bit rate than the conventional encoding method for the input voice of the 7 kHz band, and compared to the encoding method for the input voice of the 3.4 kHz band, It can play overwhelmingly natural sound at the same low bit rate.

【0020】例えばサンプリングレートが11kHzの
音声を入力とした場合、8kHzでサンプリングした場
合に比べて情報量が11/8倍に増加するため、一般的
には固定符号帳のパルス数を11/8倍程度に増やす必
要があると容易に推測できる。この発明では11kHz
サンプリングレートした場合に増える情報量のうち、音
声モデル(短期予測成分と、その予測残差中の長周期的
成分とその残りの成分とにモデル化したもの)に一致す
る範囲内の情報のみを利用することで、線形予測パラメ
ータ量子化効率、適応符号帳の量子化効率を上げ、同様
の特徴を利用することで固定符号帳パルス候補でも、パ
ルス配置位置を非常にスパース(まばら)にし、パルス
の本数を制限する。
For example, when a voice having a sampling rate of 11 kHz is input, the amount of information increases 11/8 times as compared with the case of sampling at 8 kHz. Therefore, the number of pulses in the fixed codebook is generally 11/8. It can be easily inferred that it is necessary to double the number. 11 kHz in this invention
Of the amount of information that increases when the sampling rate is used, only the information within the range that matches the speech model (the short-term prediction component, the long-period component in the prediction residual and the remaining component) By using it, the linear prediction parameter quantization efficiency and the adaptive codebook quantization efficiency are improved, and by using the same characteristics, even in fixed codebook pulse candidates, the pulse arrangement positions are made very sparse and Limit the number of.

【0021】この結果、パルスの本数を8kHzサンプ
リングの場合とほぼ同じにしても、非常に高品質な音声
を再生することが可能となる。ビットレートを低くする
場合には、情報効率をよくするためにフレーム長を長く
取って線形予測パラメータの情報を送る割合を少なくす
ることが多い。このような場合フレーム長が変わると遅
延も変化するので最も遅延の長いモードに遅延を合わせ
て先読みを行う必要がある。
As a result, even if the number of pulses is almost the same as in the case of sampling at 8 kHz, it is possible to reproduce a very high quality voice. When lowering the bit rate, in order to improve information efficiency, it is often the case that the frame length is increased to reduce the rate of sending information of the linear prediction parameter. In such a case, since the delay changes as the frame length changes, it is necessary to match the delay to the mode with the longest delay and perform prefetching.

【0022】この発明ではフレーム長と遅延をすべての
モードで一定にし、先読みした部分の情報もすべてのモ
ードであますところ無く利用できるため、ビットレート
切り替えに対応するための効率低下を最小限に抑えるこ
とが可能となる。さらにサブフレーム数、固定符号帳の
切り替え時に適応符号帳を再初期化せずに用いること
で、過去に送った情報を有効に利用し、音が途切れるこ
となくフレーム単位でビットレートモードの切り替えを
行うことができる。作用 7kHz帯域の音声がCELP方式で用いられる音声の
モデルに一致しない高域の情報も多く含んでいるのに対
して、3.4kHz帯域の音声では周波数帯域制限によ
って上記音声モデルに一致する範囲内の情報も失われて
いる。
According to the present invention, the frame length and the delay are made constant in all modes, and the information of the prefetched portion can be used without exception in all modes. Therefore, the efficiency reduction for dealing with bit rate switching is minimized. It becomes possible to suppress. Furthermore, by using the adaptive codebook without re-initialization when switching the number of subframes and fixed codebook, the information sent in the past can be used effectively, and the bit rate mode can be switched frame by frame without interruption of sound. It can be carried out. Action While the voice in the 7 kHz band contains a lot of high frequency information that does not match the model of the voice used in the CELP method, the voice in the 3.4 kHz band is within the range that matches the voice model due to the frequency band limitation. Information has been lost.

【0023】これらに対して5kHz帯域の音声で、上
記音声モデルに一致する範囲内の必要十分な情報を含ん
でおり、それ以外の情報はほとんど含まれていなく、上
記音声のモデルでの符号化に非常に適しているため、7
kHz帯域の音声に比べてビットレートを圧倒的に低く
でき、3.4kHz帯域の符号化方式と比べて、同程度
のビットレートにした場合には帯域が広くなった分だけ
圧倒的に自然性の高い高品質な音声を再生できる。
On the other hand, the voice of the 5 kHz band contains necessary and sufficient information within the range that matches the above-mentioned voice model, and contains almost no other information, and is encoded by the above-mentioned voice model. 7 is suitable for
The bit rate can be overwhelmingly lower than that of voices in the kHz band, and when compared to the encoding method in the 3.4 kHz band, when the bit rate is about the same, the band becomes wider, which is overwhelmingly natural. It can play high quality and high quality audio.

【0024】また、可変ビットレートを実現する場合に
も、入力を5kHz帯域の音声とすることで、3.4k
Hz帯域の入力音声を対象とする可変ビットレート音声
符号化方式に比べて高品質を実現できる。
Also, in the case of realizing a variable bit rate, inputting a voice in the 5 kHz band makes it possible to obtain 3.4 k
Higher quality can be realized as compared with the variable bit rate speech coding method for input speech in the Hz band.

【0025】[0025]

【発明の実施の形態】以下にこの発明の実施例を図面を
用いて説明する。図1はこの発明による音声符号化器の
機能的構成例を示したものである。従来法と異なる点
は、入力対象を5kHz程度の帯域の音声(11.02
5kHzサンプリング)とする点、ビットレート切り替
え制御時にフレーム長は同じままサブフレーム長と固定
符号帳を切り替える点、適応符号帳は符号化器と復号器
ともに再初期化を行わず継続して使用する点である。図
2にこの発明による復号器の機能的構成例を示す。 <実施例1>発明による符号化方法の例として、この発
明を用いてフレーム長10ms、ビットレート7.8k
bit/sの符号化方式を設計した例を示す。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a functional configuration example of a speech coder according to the present invention. The difference from the conventional method is that the input target is a voice (11.02
5 kHz sampling), the subframe length and the fixed codebook are switched while the frame length remains the same during the bit rate switching control, and the adaptive codebook is used continuously without re-initialization for both the encoder and the decoder. It is a point. FIG. 2 shows a functional configuration example of the decoder according to the present invention. <Embodiment 1> As an example of an encoding method according to the present invention, a frame length of 10 ms and a bit rate of 7.8 k are obtained by using the present invention.
An example of designing a bit / s encoding method will be shown.

【0026】入力された音声信号は、フィルタ部5−1
においてローパスフィルタ処理をかけられ5kHz以下
に帯域制限される。分析フレーム長は110サンプルで
ある。これは約10msに相当する。サブフレーム数
2、先読みは1サブフレーム5msとする。図3にビッ
ト配分の例を示す。線形予測分析部5−2では14次の
線形予測分析が行われ、得られた線形予測係数からLe
vinson−Durbinのアルゴリズムによって1
4次のLSP係数が計算される。ここでは演算量を低く
抑えるため14次としたが、線形予測次数は14次から
20次程度でも可能である。
The input voice signal is filtered by the filter section 5-1.
In, the signal is low-pass filtered and band limited to 5 kHz or less. The analysis frame length is 110 samples. This corresponds to about 10 ms. It is assumed that the number of subframes is 2 and prefetching is 1 subframe 5 ms. FIG. 3 shows an example of bit allocation. In the linear prediction analysis unit 5-2, 14th-order linear prediction analysis is performed, and Le is calculated from the obtained linear prediction coefficients.
1 according to the Vinson-Durbin algorithm
The fourth-order LSP coefficient is calculated. Here, the order is 14th in order to keep the calculation amount low, but the linear prediction order may be about 14th to 20th.

【0027】線形予測パラメータは、線形予測パラメー
タ符号化部5−3において、移動平均(MA)予測を用
いる2段ベクトル量子化によって符号化される。ここで
は移動平均(MA)予測モード切り替えに1ビット、1
段目に7ビット、2段目を低次と高次の2つに分け、そ
れぞれ5ビットを用いた。3.4kHz帯域の音声では
分析次数はたとえば10次程度が用いられる。これに対
して5kHz帯域の音声では線形予測分析次数を14次
に上げているため情報量か増えている。しかし、情報量
が増えているにも関わらずLSPのベクトル量子化ビッ
ト数は同程度とする。これは5kHz程度までは線形予
測係数に相関があり、3.4kHz帯域の音声と同程度
の量子化ビット数で量子化可能であるという5kHz帯
域音声信号の特徴を利用しているためである。なお、7
kHz帯域の音声を入力とした場合には、高域に無相関
な成分を含むため同程度のビット数にすることは難し
い。LSP係数の次数を多くしているのでそれを忠実に
表わすには、その量子化に用いるLSP符号帳のコード
ベクトルの数を多くし、従って符号化ビット数を多くす
るので通常であるが、この発明では3.4kHz帯域の
符号化に用いるLSP符号帳のコードベクトル数と同程
度とし、従って符号化ビット数を同一としている。この
ため同一符号化ビット数の場合、3.4kHz帯域より
もこの発明では量子化歪が大となる。しかし、5kHz
程度までは線形予測係数に相関があり、その量子化歪の
増加は比較的わずかであり、その量子化歪の増加以上
に、帯域が広かったこと、つまりLSP係数の次数を多
くしたことにもとづく品質の向上が、再生音声に対して
大きく影響し、自然性のよいものとなる。
The linear prediction parameter coding unit 5-3 codes the linear prediction parameter by two-stage vector quantization using moving average (MA) prediction. 1 bit for moving average (MA) prediction mode switching, 1
The 7th bit was used for the second stage, and the second stage was divided into two, low order and high order, and 5 bits were used for each. For voice in the 3.4 kHz band, the analysis order is, for example, about 10th order. On the other hand, in the case of speech in the 5 kHz band, the amount of information is increased because the linear prediction analysis order is increased to 14. However, the number of vector quantization bits of LSP is assumed to be about the same even though the amount of information increases. This is because the linear prediction coefficient is correlated up to about 5 kHz, and the characteristic of the 5 kHz band audio signal that it can be quantized with the same number of quantization bits as the audio in the 3.4 kHz band is used. In addition, 7
When a voice in the kHz band is input, it is difficult to set the number of bits to the same level because the high frequency includes uncorrelated components. Since the order of the LSP coefficient is increased, it is usual to faithfully represent it by increasing the number of code vectors of the LSP codebook used for the quantization, and thus increasing the number of coded bits. In the present invention, the number of code vectors is the same as the number of code vectors of the LSP codebook used for encoding in the 3.4 kHz band, and thus the number of encoded bits is the same. Therefore, in the case of the same number of coded bits, the present invention has a larger quantization distortion than that in the 3.4 kHz band. However, 5 kHz
Up to a degree, there is a correlation between linear prediction coefficients, and the increase in the quantization distortion is relatively small. Based on the fact that the band was wider than the increase in the quantization distortion, that is, the order of the LSP coefficient was increased. The improvement in quality has a great influence on the reproduced sound, and the sound becomes natural.

【0028】駆動音源ベクトル生成部5−12〜5−1
4(この実施例1では駆動音源ベクトル生成部は1つを
使用)で駆動音源ベクトルは適応符号帳、固定符号帳に
重みをかけて足しあわせることで生成される。適応符号
帳の探索はそこに格納された時系列データの先頭からど
の位置までを切り出すかを変更して行う、その切り出し
位置はサンプル位置単位で行う整数精度探索と、隣接サ
ンプル位置間を3等分した各位置単位で行う3倍精度探
索とが通常行われている。11.025kHzサンプリ
ングを使用した場合に適応符号帳は、たとえば適応符号
帳インデックスに8ビットを割り当てた場合は基準位置
に対し27+1/3から85+1/3サンプルまでは3
倍精度で、86から165サンプルまでは整数精度で探
索することができる。第2サブフレームに対しては、前
サブフレームで得た適応予測値T 1 の整数部分をint
(T1 )とするとき〔int(T1 )−5+2/3,i
nt(T1 )+4+2/3〕に対して3倍精度で適応予
測値を探索し、5ビットを用いて表す。ここで、適応符
号帳インデックスに9ビットを割り当てた場合には26
+1/3から185+2/3サンプルまでは3倍精度
で、186から220サンプルまでは整数精度で探索し
てもよい。
Driving sound source vector generation unit 5-12 to 5-1
4 (in the first embodiment, one driving sound source vector generation unit
Drive source vector to adaptive codebook or fixed codebook
It is generated by adding weights and adding them. Adaptive code
The search of the book is from the beginning of the time series data stored there.
Cut out by changing whether to cut up to the position of
The position is an integer precision search performed in sample position units, and
Triple precision search performed for each position by dividing the sample positions into three equal parts
Searching is usually done. 11.025kHz sample
Adaptive codebook, for example,
Reference position when 8 bits are assigned to the book index
From 27 + 1/3 to 85 + 1/3 samples is 3
Double precision search with integer precision from 86 to 165 samples
You can search. For the second subframe, the previous
Adaptive prediction value T obtained in subframe 1Int the integer part of
(T1) [Int (T1) -5 + 2/3, i
nt (T1) + 4 + 2/3] with 3 times accuracy
The measurement is searched and represented using 5 bits. Where the adaptation mark
26 if 9 bits are assigned to the issue index
Triple precision from +1/3 to 185 + 2/3 samples
So, search from 186 to 220 samples with integer precision
May be.

【0029】適応符号帳の探索範囲をこのように設定し
た場合には、同じビット数を割り当てるとすれば5kH
z帯域の音声を用いた場合の方が、3.4kHz帯域の
入力を対象とした場合に比べて3倍精度で探索する区間
は短くなる。しかし、ピッチの周期性が3.4kHz帯
域の音声と似ているという5kHz帯域音声の特徴を利
用すれば、同じビット数で同等以上の品質を得ることが
できる。
When the search range of the adaptive codebook is set in this way, if the same number of bits is assigned, it is 5 kHz.
In the case of using the voice in the z band, the search period with triple precision is shorter than in the case of inputting in the 3.4 kHz band. However, if the characteristic of the 5 kHz band voice that the pitch periodicity is similar to that of the 3.4 kHz band voice is used, equal or higher quality can be obtained with the same number of bits.

【0030】また、3.4kHz帯域の音声では8kH
zでサンプリングされ、5kHz帯域の音声では11.
025kHzでサンプリングされる。8kHzサンプリ
ングに比べて11.025kHzサンプリングの方がサ
ンプリング間隔が狭いことから、適応符号帳探索の時間
分解能が向上する。実質的には5kHz帯域での3倍精
度は3.4kHz帯域の4.13倍精度と換算すること
ができる。このことも5kHz帯域を入力とした場合に
品質が向上する理由である。
8 kHz for voice in the 3.4 kHz band
z is sampled at z, and 11.
It is sampled at 025 kHz. Since the sampling interval of 11.025 kHz sampling is narrower than that of 8 kHz sampling, the time resolution of adaptive codebook search is improved. Substantially, the triple precision in the 5 kHz band can be converted into the 4.13 precision in the 3.4 kHz band. This is also the reason why the quality is improved when the input is in the 5 kHz band.

【0031】上記に示した様に、4.5kHz帯域〜
5.5kHz帯域の音声を入力対象とすることによっ
て、3.4kHz帯域の音声を対象とした符号化方式と
同程度のビット配分でもLSP符号帳と適応符号帳の性
能が顕著に向上する。この実施例1のビット配分は図3
に示すように、3.4kHz帯域のG.729(8kb
it/s)のビット配分と比較すると、重み(利得)
各77ビットである点が違うのみである。このように
この実施例1ではG.729よりも2ビット少ないが、
後で示すが、再生音声の品質は実施例1の方が向上して
いる。
As indicated above, the 4.5 kHz band
By inputting the voice of the 5.5 kHz band as the input target, the performance of the LSP codebook and the adaptive codebook is remarkably improved even if the bit allocation is similar to that of the encoding method for the voice of the 3.4 kHz band. The bit allocation of the first embodiment is shown in FIG.
As shown in FIG. 729 (8 kb
It is different from the bit allocation of it / s) only in that the weights (gains) are 7 and 7 bits, respectively. As described above, in the first embodiment, the G.I. 2 bits less than 729,
As will be shown later, the quality of reproduced voice is improved in the first embodiment.

【0032】またこのビット配分から、適応符号帳の第
1サブフレームに対し、実施例1、G.729共に8ビ
ットであるが、このサブフレーム内のサンプル数は実施
例1が55サンプルに対し、G.729は40サンプル
である。従って、1サンプル当りのビット割り当て数は
実施例1では8/55、G.729では8/40とな
り、実施例1の方が少ないビット数である。このように
1サンプル当りのビット割り当てを3.4kHz帯域の
それより少なくしたのがこの発明の1つの特徴である。
From this bit allocation, the first subframe of the adaptive codebook, G. Although both 729 are 8 bits, the number of samples in this subframe is 55. 729 is 40 samples. Therefore, the bit allocation number per sample is 8/55 in the first embodiment, and G. 729 becomes 8/40, and the number of bits is smaller in the first embodiment. As described above, one of the features of the present invention is that the bit allocation per sample is made smaller than that of the 3.4 kHz band.

【0033】また、固定符号帳の探索においても適応符
号帳の場合と同様に、8kHzサンプリングに比べて1
1.025kHzサンプリングのサンプリング間隔が狭
いことから、固定符号帳探索の時間分解能が向上すると
いう効果を得ることができる。これらのことを利用すれ
ば固定符号帳で立てられる10msあたりのパルス数を
非常にスパースにすることができ、固定符号帳のビット
配分を3.4kHz帯域と同程度まで削減することが可
能である。このように固定符号帳のビット配分を少なく
しても、LSP符号帳、適応符号帳の性能の向上が固定
符号帳のパルス数を少なくしたことに基づく品質劣化よ
り大きく上回っている。
Also, in the search for the fixed codebook, as compared with the case of the adaptive codebook, 1
Since the sampling interval of 1.025 kHz sampling is narrow, it is possible to obtain the effect of improving the time resolution of the fixed codebook search. By using these things, the number of pulses per 10 ms set in the fixed codebook can be made very sparse, and the bit allocation of the fixed codebook can be reduced to the same level as the 3.4 kHz band. . Even if the bit allocation of the fixed codebook is reduced in this way, the improvement in the performance of the LSP codebook and the adaptive codebook exceeds the quality deterioration due to the reduced number of pulses of the fixed codebook.

【0034】5msサブフレームに4本のパルスを割り
当てて17ビットとしたパルス配置の例を図4に示す。
図4中のi0の行は0番パルスが立つことができる位置
を示し、以下同様に1番、2番、3番の各パルスがそれ
ぞれ立つことができる位置を示している。各サブフレー
ムに0番乃至3番の4本のパルスを立てる。 <実施例2>この発明の符号化方法の実施例2を示す。
この実施例2ではフレーム長20ms、3.95kbi
t/s、5.75kbit/s、7.75kbit/s
の3段階にビットレートを可変制御可能な符号化方式と
した場合である。
FIG. 4 shows an example of a pulse arrangement in which 4 pulses are allocated to a 5 ms subframe to have 17 bits.
The row of i0 in FIG. 4 indicates the position where the 0th pulse can stand, and the positions where the 1st, 2nd and 3rd pulses can stand respectively similarly. Four pulses 0 to 3 are set in each subframe. <Second Embodiment> A second embodiment of the encoding method of the present invention will be described.
In the second embodiment, the frame length is 20 ms, 3.95 kbi.
t / s, 5.75 kbit / s, 7.75 kbit / s
This is a case where the encoding method in which the bit rate is variably controllable in three stages.

【0035】入力された音声信号は、フィルタ部5−1
においてローパスフィルタをかけられ5kHz以下に帯
域制限される。分析フレーム長は220サンプルであ
る。これは約20msに相当する。サブフレーム数は
3.95kbit/s、5.75kbit/s、7.7
5kbit/sの各モードでそれぞれ2、3、4であ
る。先読みは約7ms、フレーム長の約3分の1とす
る。
The input voice signal is filtered by the filter section 5-1.
, And is bandpass limited to 5 kHz or less. The analysis frame length is 220 samples. This corresponds to about 20 ms. The number of subframes is 3.95 kbit / s, 5.75 kbit / s, 7.7.
It is 2, 3, and 4 in each mode of 5 kbit / s. The prefetch is about 7 ms and about one third of the frame length.

【0036】モード切り替え可能な符号化器の例を図1
に、各ビットレートモードにおけるビット配分の例を図
5に示す。各ビットレートモードはフレームごとに独立
に設定し、切り替えることが可能である。当該フレーム
のビットレートモードを復号器に知らせるために、たと
えば図5にしめしたものとは別に各フレーム1bitか
ら2bitを用いる。例えば3.95kbit/s、
5.75kbit/s、7.75kbit/sをそれぞ
れ0、10、11で表現する。この場合の各ビットレー
トは4kbit/s、5.85kbit/s、7.85
kbit/sとなる。IPパケット等を通信に用いる場
合は、パケットサイズ情報から間接的に当該フレームの
ビットレートモードを知ることができ、ビットレートモ
ードを示す情報を送る必要はない。ビットレートモード
の切り替えは利用者が行ったり、符号器の上位側で、例
えば通信の輻輳状態に応じてどのビットレートモードを
用いるかの指示が来る。
An example of a mode switchable encoder is shown in FIG.
FIG. 5 shows an example of bit allocation in each bit rate mode. Each bit rate mode can be set and switched independently for each frame. In order to inform the decoder of the bit rate mode of the frame, 1 bit to 2 bit of each frame is used separately from the one shown in FIG. For example, 3.95 kbit / s,
5.75 kbit / s and 7.75 kbit / s are represented by 0, 10, and 11, respectively. In this case, each bit rate is 4 kbit / s, 5.85 kbit / s, 7.85.
It becomes kbit / s. When an IP packet or the like is used for communication, the bit rate mode of the frame can be indirectly known from the packet size information, and it is not necessary to send information indicating the bit rate mode. The user switches the bit rate mode, or the upper side of the encoder gives an instruction as to which bit rate mode to use in accordance with the congestion state of communication, for example.

【0037】各ビットレートモードにおける固定符号帳
のパルス配置を図6、7、8に示す。線形予測分析部5
−2では14次の線形予測分析が行われ、得られた線形
予測係数からLevinson−Durbinのアルゴ
リズムによって14次のLSP係数が計算される。ここ
では演算量との兼ね合いで14次としたが、線形予測次
数は14次から20次程度を用いることができる。
The fixed codebook pulse arrangement in each bit rate mode is shown in FIGS. Linear prediction analysis unit 5
In −2, a 14th-order linear prediction analysis is performed, and a 14th-order LSP coefficient is calculated from the obtained linear prediction coefficient by the Levinson-Durbin algorithm. Although the fourteenth order is used here in consideration of the amount of calculation, a linear prediction order of about 14th to 20th can be used.

【0038】線形予測パラメータは、線形予測パラメー
タ符号化部5−3において、移動平均(MA)予測を用
いる2段ベクトル量子化によって符号化される。ここで
は移動平均(MA)予測モード切り替えに1ビット、1
段目に8ビット、2段目を低次と高次の2つに分け、そ
れぞれ6ビットを用いた。3.4kHz帯域の音声では
分析次数はたとえば10次程度が用いられる。これに対
して5kHz帯域の音声では線形予測分析次数を14次
に上げているため情報量が増えている。しかし、情報量
が増えているにも関わらずLSPのベクトル量子化ビッ
ト数は同程度とする。これは5kHz程度までは線形予
測係数に相関があり、3.4kHz帯域の音声と同程度
の量子化ビット数で量子化可能であるという5kHz帯
域音声信号の特徴を利用しているためである。また、7
kHz帯域の音声を入力とした場合には、高域に無相関
な成分を含むため同程度のビット数にすることは難し
い。
The linear prediction parameter coding unit 5-3 codes the linear prediction parameter by two-stage vector quantization using moving average (MA) prediction. 1 bit for moving average (MA) prediction mode switching, 1
8 bits were used for the second stage, and the second stage was divided into two, low order and high order, and 6 bits were used for each. For voice in the 3.4 kHz band, the analysis order is, for example, about 10th order. On the other hand, in the case of speech in the 5 kHz band, the amount of information increases because the linear prediction analysis order is increased to 14. However, the number of vector quantization bits of LSP is assumed to be about the same even though the amount of information increases. This is because the linear prediction coefficient is correlated up to about 5 kHz, and the characteristic of the 5 kHz band audio signal that it can be quantized with the same number of quantization bits as the audio in the 3.4 kHz band is used. Also, 7
When a voice in the kHz band is input, it is difficult to set the number of bits to the same level because the high frequency includes uncorrelated components.

【0039】駆動音源ベクトル制御部5−5において、
各モードで使用される駆動音源ベクトル生成部1〜n
(5−12〜5−14)全てにおいて、その各適応符号
帳には直前の駆動音源ベクトルを共通に格納し、ビット
レートモード切り替え時にも過去の適応符号帳ベクトル
を最初期化せずそのまま使用する。これによって、過去
に送った適応符号帳の情報を有効に利用することが可能
となる。ここでは、ビットレートモード3.95kbi
t/s、5.75kbit/s、7.75kbit/s
の3つのモードに対してそれぞれ駆動音源ベクトル生成
部を用意した。それぞれのサブフレーム数は2、3、4
である。
In the driving sound source vector control unit 5-5,
Driving sound source vector generation units 1 to n used in each mode
In all of (5-12 to 5-14), the previous driving excitation vector is commonly stored in each of the adaptive codebooks, and the past adaptive codebook vectors are used as they are without initializing even when the bit rate mode is switched. To do. This makes it possible to effectively use the information of the adaptive codebook sent in the past. Here, the bit rate mode is 3.95 kbi.
t / s, 5.75 kbit / s, 7.75 kbit / s
A driving sound source vector generation unit is prepared for each of the three modes. The number of each subframe is 2, 3, 4
Is.

【0040】適応符号帳インデックスには7.75kb
it/sモードでは第1、第3サブフレームに対して9
ビットを割り当て、第2、第4サブフレームでは前サブ
フレームで得た適応予測値の整数部int(T1 )に対
して〔int(T1 )−5+2/3,int(T1 )+
4+2/3〕の範囲で3倍精度で適応予測値を探索し、
5ビットを用いて表す。それ以外のビットレートモード
では第1サブフレームに対して9ビットを割り当て、残
りのサブフレームに対しては、5ビットを用いて表す。
The adaptive codebook index is 7.75 kb.
9 in the first and third subframes in the it / s mode
Bits are allocated, and in the second and fourth subframes, [int (T 1 ) -5 + 2/3, int (T 1 ) + is added to the integer part int (T 1 ) of the adaptive prediction value obtained in the previous subframe.
4 + 2/3], and search for an adaptive prediction value with triple precision,
It is expressed using 5 bits. In the other bit rate modes, 9 bits are assigned to the first subframe, and 5 bits are used for the remaining subframes.

【0041】ここでは、音声は5kHz程度まではピッ
チ予測が比較的容易であるという特徴を利用しているた
め、3.4kHz帯域の音声に用いるのと同程度のビッ
トで適応符号帳成分を表現可能である。また、11.0
25kHzサンプリングの入力信号を用いているため、
8kHzサンプリングの信号を用いた場合と比較して適
応予測の時間分解能が向上していることも品質向上の理
由となっている。
In this case, since the voice is characterized in that pitch prediction is relatively easy up to about 5 kHz, the adaptive codebook component is expressed by the same number of bits as used for the voice in the 3.4 kHz band. It is possible. Also, 11.0
Since the input signal of 25 kHz sampling is used,
Another reason for the quality improvement is that the time resolution of adaptive prediction is improved as compared with the case where a signal of 8 kHz sampling is used.

【0042】ここでも、実施例1の場合と同様に、4.
5kHz帯域〜5.5kHz帯域の音声を入力対象とす
ることによって、3.4kHz帯域の音声を対象とした
符号化方式と同程度のビット配分でもLSP符号帳と適
応符号帳の性能が顕著に向上する。また、固定符号帳の
探索においても適応符号帳の場合と同様に、8kHzサ
ンプリングに比べて11.025kHzサンプリングの
サンプリング間隔が狭いことから、固定符号帳探索の時
間分解能が向上するという効果を得ることができる。
Also here, as in the case of the first embodiment, 4.
By inputting speech in the 5 kHz band to 5.5 kHz band, the performance of the LSP codebook and the adaptive codebook is remarkably improved even if the bit allocation is similar to that of the encoding method for speech in the 3.4 kHz band. To do. Also, in the fixed codebook search, as in the case of the adaptive codebook, the sampling interval of 11.025 kHz sampling is narrower than that of 8 kHz sampling, so that the time resolution of the fixed codebook search is improved. You can

【0043】これらのことを利用すれば固定符号帳で立
てられるサブフレームあたりのパルス数を非常にスパー
スにすることができ、固定符号帳のビット配分を3.4
kHz帯域と同程度まで削減することが可能である。駆
動音源ベクトル制御部5−5では、駆動音源ベクトル切
り替え部5−11において、使用する駆動音源ベクトル
を切り替えることでビットレートの変更を実現する。各
駆動音源ベクトル生成部1〜n(5−12から5−1
4)では、ビットレートモード切り替え時にも駆動音源
ベクトルバッファの再初期化は行わず、前サブフレーム
で用いた駆動音源ベクトルを使用して適応符号帳の探索
を行う。これによってビットレートモードを時々刻々切
り替えた場合にも、音が途切れることなく、フレームご
とのビットレート切り替えが可能となる。
By utilizing these things, the number of pulses per subframe set up in the fixed codebook can be made very sparse, and the bit allocation of the fixed codebook is 3.4.
It is possible to reduce to the same level as the kHz band. In the driving sound source vector control unit 5-5, the driving sound source vector switching unit 5-11 changes the bit rate by switching the driving sound source vector to be used. Each driving sound source vector generation unit 1 to n (5-12 to 5-1
In 4), the drive excitation vector buffer is not reinitialized even when the bit rate mode is switched, and the adaptive codebook is searched using the drive excitation vector used in the previous subframe. As a result, even when the bit rate mode is switched from moment to moment, the bit rate can be switched frame by frame without interruption of sound.

【0044】ビットレートモード切り替え時には、LS
P符号帳はすべてのビットレートモードで同一のものを
使用し、固定符号帳と適応符号帳に対するゲイン(利
得)をあらわす重み符号帳は、固定符号帳のMA(移動
平均)予測係数と重みのバイアス(平均値)のみを切り
替え、重み符号帳は同一のものを使用している。ここ
で、重み符号帳をビットレートモードごとに独立して作
成し、切り替えて用いることもできる。重み符号帳を、
サブフレームの長さ、つまりビットレートモード切り替
えに拘わらず、駆動音源ベクトル生成部5−12〜5−
14に対し、共通のものとすることができるのは、適応
符号帳の符号ベクトル、固定符号帳の符号ベクトルと駆
動音源ベクトル候補との大きさの比はサブフレームの長
さが変っても似たような関係にあるからである。
When switching the bit rate mode, LS
The P codebook is the same in all bit rate modes, and the weight codebook that represents the gain for the fixed codebook and the adaptive codebook is the MA (moving average) prediction coefficient and weight of the fixed codebook. Only the bias (average value) is switched, and the same weight codebook is used. Here, the weight codebook may be created independently for each bit rate mode and used by switching. The weight codebook,
The drive sound source vector generation units 5-12 to 5-5 regardless of the length of the subframe, that is, the bit rate mode switching.
14 can be made common to the adaptive codebook code vector, the fixed codebook code vector and the driving excitation vector candidate size ratio even if the subframe length changes. It is because there is such a relationship.

【0045】この発明におけるビットレート切り替え法
では、適応符号帳が共有可能でありさえすれば、様々な
方式の固定符号帳を用いてビットレートモードを構成す
ることができる。たとえばDual−Pulse CS
−CELPや、PSI−CELPや、MP(Multi
Pulse)CELPその他のCELPを基本とする
方式の固定符号帳を用いてビットレートモードを構成し
てもよい。その場合にも、すでに送信した情報を有効に
利用でき、音が途切れることなくビットレートモードを
切り替えることが可能である。
In the bit rate switching method according to the present invention, as long as the adaptive codebook can be shared, the bitrate mode can be constructed using fixed codebooks of various systems. For example, Dual-Pulse CS
-CELP, PSI-CELP, MP (Multi
Pulse) CELP and other fixed codebooks based on CELP may be used to configure the bit rate mode. Even in that case, the already transmitted information can be effectively used, and the bit rate mode can be switched without interruption of sound.

【0046】実施例2ではビットレートモードにかかわ
りなく、先読みを約7ms、つまりフレーム長の約3分
の1としている。このため、ビットレートモードの切り
替えにより、サブフレームが約5ms、約7ms、約1
0msの何れかに切り替わるが、符号が得られる遅延は
1フレーム+7msと常に一定である。つまりLSP係
数は隣フレームの第1サブフレームでの分析結果でその
間の他のサブフレームを補間でしているため、本来は1
フレーム+1サブフレームだけ遅延して各フレームのL
SP量子化符号が得られるが、モード切り替え時に先読
みする1サブフレーム分のLSP分析結果として、常に
7msの先読みで得られるLSP分析結果を利用する。
このため符号結果が得られる遅延量はモードに無関係で
一定であり、通信が一時的に途切れるようなことがない
ようにすることができ、かつ、遅延量も大きくしないで
済む。
In the second embodiment, the read-ahead is about 7 ms, that is, about 1/3 of the frame length regardless of the bit rate mode. Therefore, by switching the bit rate mode, the subframe is about 5 ms, about 7 ms, about 1
Although it is switched to any of 0 ms, the delay for obtaining a code is always constant at 1 frame + 7 ms. That is, since the LSP coefficient is the analysis result of the first subframe of the adjacent frame and interpolates other subframes between them, it is originally 1
Frame + 1 subframe, delayed by L for each frame
Although the SP quantized code is obtained, the LSP analysis result obtained by the 7 ms prefetch is always used as the LSP analysis result for one subframe that is prefetched at the time of mode switching.
Therefore, the delay amount for obtaining the coded result is constant regardless of the mode, it is possible to prevent the communication from being temporarily interrupted, and the delay amount does not have to be large.

【0047】この発明の復号方法の機能構成は、図2に
示すように、図13に示した従来方法とほぼ同様であ
る。ただ、ビットレートモードを切り替える場合は、そ
の各モードと対応して複数の駆動音源ベクトル生成部5
−12〜5−14が符号器のものと同一ものとして構成
される。短期予測成分の符号(インデックス)の復号に
用いる符号帳、実施例ではLSP符号帳は、3.4kH
z帯域の同一ビット数の符号(インデックス)の復号に
用いられる符号帳よりも量子化歪が大きくなるものであ
る。つまり短期予測成分のインデックスが同一ビット数
の場合、3.4kHz帯域のLSP符号帳のLSP係数
の次数よりも、この5kHz帯域のLSP符号帳のLS
P係数の次数が大とされている。
As shown in FIG. 2, the functional structure of the decoding method of the present invention is almost the same as that of the conventional method shown in FIG. However, when switching the bit rate mode, a plurality of driving sound source vector generation units 5 are provided corresponding to each mode.
-12 to 5-14 are configured as the same as those of the encoder. The codebook used for decoding the code (index) of the short-term prediction component, in the embodiment, the LSP codebook is 3.4 kH.
The quantization distortion is larger than that of a codebook used for decoding a code (index) having the same number of bits in the z band. That is, when the index of the short-term prediction component has the same number of bits, the LS of the LSP codebook of this 5 kHz band is higher than the order of the LSP coefficient of the LSP codebook of 3.4 kHz band.
The order of the P coefficient is high.

【0048】またこの発明においては周期的な成分の符
号(インデックス)の復号に用いる適応符号帳は、3.
4kHz帯域の同一ビット数の周期的成分符号(インデ
ックス)の復号に用いる適応符号帳と同程度の時間精度
で周期化されるものである。換言すれば、符号化方法の
実施例で説明したように、周期的成分符号(インデック
ス)のビット数を、適応符号帳の1符号ベクトルのサン
プル数で割った値は、インデックスビット数が同一の場
合、この発明の5kHz帯域のものは、3.4kHz帯
域のそれよりも小とされている。
Further, in the present invention, the adaptive codebook used for decoding the code (index) of the periodic component is 3.
It is periodic with the same time accuracy as the adaptive codebook used for decoding the periodic component code (index) of the same number of bits in the 4 kHz band. In other words, as described in the embodiment of the coding method, the value obtained by dividing the number of bits of the periodic component code (index) by the number of samples of one code vector of the adaptive codebook has the same number of index bits. In this case, the 5 kHz band of the present invention is smaller than that of the 3.4 kHz band.

【0049】この発明の符号化方法では音声帯域をほぼ
5kHzに制限するが、4.5kHz帯域より小さくす
ると、原音での自然性が3.4kHz帯域とそれ程変わ
らぬ程度に劣化してしまい自然性の優れた再生音声は得
られない。一方帯域を5.5kHzより大きくすると、
音声の特徴である周期性以外の成分が含まれ、LSP符
号帳、適応符号帳のそれぞれについて、ビット数を可成
り多くしないと、性能が著しく劣化してしまう。要する
に4.5kHz帯域〜5.5kHz帯域にすることによ
り、原音での自然性を3.4kHz帯域より著しく高
め、かつ音声の特徴である周期性を利用して、3.4k
Hz帯域と同程度のビット割り当てで、短期予測成分、
周期的成分をそれぞれ高い品質を保持して符号化するこ
とができるようにしたものである。
In the encoding method of the present invention, the voice band is limited to approximately 5 kHz, but if it is smaller than 4.5 kHz band, the naturalness of the original sound deteriorates to the 3.4 kHz band to the same extent and the naturalness of the original sound deteriorates. I can't get the excellent playback sound. On the other hand, if the band is greater than 5.5 kHz,
A component other than the periodicity, which is a feature of speech, is included, and unless the number of bits in each of the LSP codebook and the adaptive codebook is considerably increased, the performance is significantly deteriorated. In short, by setting the frequency range from 4.5 kHz to 5.5 kHz, the naturalness of the original sound is remarkably enhanced compared to the 3.4 kHz band, and the periodicity which is a characteristic of voice is used to obtain 3.4 kHz.
With bit allocation similar to Hz band, short-term prediction component,
The periodic components can be encoded while maintaining high quality.

【0050】[0050]

【発明の効果】この発明の効果を明らかにするために、
実施例に示した符号化方式を用いたMOS評価試験を行
った。評価対象の符号化方式セットとしては次のような
ものを用いた。周波数帯域7kHz、5kHz、3.4
kHzの音声信号それぞれについて、原音とMNRU
(振幅相関雑音付加音声)40dB,30dB,20d
B,10dB。
In order to clarify the effect of the present invention,
A MOS evaluation test using the encoding method shown in the embodiment was conducted. The following was used as the encoding system set to be evaluated. Frequency band 7kHz, 5kHz, 3.4
Original sound and MNRU for each kHz audio signal
(Voice with amplitude correlation noise) 40 dB, 30 dB, 20 d
B, 10 dB.

【0051】3.4kHz帯域の音声符号化方式として
G.723.1(6.3kbit/s,5.3kbit
/s),G.729(8kbit/s)。7kHz帯域
のG.722(64kbit/s,56kbit/s,
48kbit/s)。11kHzサンプリングの音声を
既存の3.4kHz帯域符号化方式に入力した場合の参
考値として、G.723.1の5.3kbit/sモー
ド、6.3kbit/sモードに11.025kHzサ
ンプリングの音声を入力したG.723.1Base1
1kHz7.29bit/s,8.68kbit/s。
As a voice coding system in the 3.4 kHz band, G. 723.1 (6.3 kbit / s, 5.3 kbit
/ S), G.I. 729 (8 kbit / s). G. 7 kHz band. 722 (64 kbit / s, 56 kbit / s,
48 kbit / s). As a reference value when a sound of 11 kHz sampling is input to the existing 3.4 kHz band encoding method, G. G.72 which inputs the voice of 11.25 kHz sampling into the 5.3kbit / s mode and the 6.3kbit / s mode of 723.1. 723.1Base1
1 kHz 7.29 bit / s, 8.68 kbit / s.

【0052】この発明による5kHz帯域の符号化方式
として、実施例1の7.8kbit/s符号化方式、実
施例2の5.75kbit/s符号化方式。上記のそれ
ぞれについて、男性、女性あわせて14音声の評価用音
声を使用し、被験者16名、5段階絶対評価でMOS評
価試験を行った。評価試験結果を図9に示す。
As the coding system of the 5 kHz band according to the present invention, the 7.8 kbit / s coding system of the first embodiment and the 5.75 kbit / s coding system of the second embodiment. For each of the above, a total of 14 voices for male and female voices were used for evaluation, and 16 subjects performed a MOS evaluation test with 5 grade absolute evaluation. The evaluation test results are shown in FIG.

【0053】実験の結果から、3.4kHz帯域の8k
Hzサンプリング音声を入力とするG.723.1,
5.3kbit/s,6.3kbit/sのMOS評価
値はそれぞれ2.7589,2.8884であり、G.
729の評価値は3.2054であった。8kHzサン
プリング用に設計された符号化方式に対して11kHz
サンプリングの音声を入力したG723.1Base1
1kHz7.29bit/s,8.68kbit/sで
はそれぞれ2.9464,3.0402であった。
From the result of the experiment, 8k in the 3.4kHz band
G. Hz sampling voice as input 723.1
The MOS evaluation values of 5.3 kbit / s and 6.3 kbit / s are 2.7589 and 2.8884, respectively.
The evaluation value of 729 was 3.2054. 11 kHz for a coding scheme designed for 8 kHz sampling
G723.1Base1 that input sampling voice
The values were 2.9464 and 3.0402 at 1 kHz 7.29 bit / s and 8.68 kbit / s, respectively.

【0054】これに対してこの発明を用いた実施例1の
7.8kbit/s符号化方式ではMOS評価値は3.
442、実施例2の5.75kbit/sモードでは
3.2902であった。これらの結果から、既存の3.
4kHz帯域の符号化方式や、既存の3.4kHz帯域
の符号化方式に単に11.025kHzサンプリングの
信号を入力したものに比べて、帯域を5kHz程度に特
化したこの発明のMOS評価値の方が有意に高いことが
示された。
On the other hand, in the 7.8 kbit / s encoding system of the first embodiment using the present invention, the MOS evaluation value is 3.
442 and 3.2902 in the 5.75 kbit / s mode of Example 2. From these results, the existing 3.
The MOS evaluation value of the present invention, which is specialized in the band of about 5 kHz, is more suitable than the coding system of the 4 kHz band or the existing coding system of the 3.4 kHz band in which a signal of 11.25 kHz sampling is simply input. Was significantly higher.

【0055】この発明では、入力音声の周波数帯域を5
kHz程度に特化することで、従来の7kHz帯域の入
力音声を対象とした符号化方式に比べて圧倒的に低いビ
ットレートで符号化でき、3.4kHz帯域の入力音声
を対象とした符号化方式に比べては、同程度の低いビッ
トレートで圧倒的に自然性の高い音声を再生できる。ま
た入力音声を5kHz程度の帯域と3.4kHz帯域よ
りも広くし、かつ前述したように線形予測量子化符号
帳、適応符号帳の性能を高めたため、比較的高い品質を
保持した状態でビットレートを可変にすることができ
る。
In the present invention, the frequency band of the input voice is set to 5
By specializing in about kHz, it is possible to perform encoding at an overwhelmingly lower bit rate than the conventional encoding method for 7 kHz band input speech, and encoding for 3.4 kHz band input speech. Compared to the system, it is possible to play overwhelmingly natural sound at the same low bit rate. In addition, since the input voice is set wider than the band of about 5 kHz and the band of 3.4 kHz, and the performance of the linear predictive quantization codebook and the adaptive codebook is improved as described above, the bit rate is maintained while maintaining a relatively high quality. Can be variable.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明による符号化法の機能的構成例を示す
図。
FIG. 1 is a diagram showing a functional configuration example of an encoding method according to the present invention.

【図2】この発明による復号法の機能的構成例を示す
図。
FIG. 2 is a diagram showing a functional configuration example of a decoding method according to the present invention.

【図3】実施例1の7.8kbit/s符号化器におけ
るビット配分の例を示す図。
FIG. 3 is a diagram showing an example of bit allocation in the 7.8 kbit / s encoder of the first embodiment.

【図4】実施例1の7.8kbit/s符号化器におけ
るパルス配置の例を示す図。
FIG. 4 is a diagram showing an example of pulse arrangement in the 7.8 kbit / s encoder of the first embodiment.

【図5】実施例2の符号化器の各ビットレートモードに
おけるビット配分の例を示す図。
FIG. 5 is a diagram showing an example of bit allocation in each bit rate mode of the encoder according to the second embodiment.

【図6】実施例2の符号化器の7.75kbit/sM
ODEにおけるパルス配置の例を示す図。
FIG. 6 is 7.75 kbit / sM of the encoder according to the second embodiment.
The figure which shows the example of the pulse arrangement in ODE.

【図7】実施例2の符号化器の5.75kbit/sM
ODEにおけるパルス配置の例を示す図。
FIG. 7 is 5.75 kbit / sM of the encoder according to the second embodiment.
The figure which shows the example of the pulse arrangement in ODE.

【図8】実施例2の符号化器の3.95kbit/sM
ODEにおけるパルス配置の例を示す図。
FIG. 8 is 3.95 kbit / sM of the encoder according to the second embodiment.
The figure which shows the example of the pulse arrangement in ODE.

【図9】MOS評価試験結果を示す図。FIG. 9 is a diagram showing a MOS evaluation test result.

【図10】従来の符号化器の機能的構成を示す図。FIG. 10 is a diagram showing a functional configuration of a conventional encoder.

【図11】従来の駆動音源ベクトル生成部を示す図。FIG. 11 is a diagram showing a conventional driving sound source vector generation unit.

【図12】従来の合成歪み計算法の構成を示す図。FIG. 12 is a diagram showing a configuration of a conventional synthetic distortion calculation method.

【図13】従来の復号器の機能的構成を示す図。FIG. 13 is a diagram showing a functional configuration of a conventional decoder.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−36495(JP,A) 特開 平6−153119(JP,A) 特開 平5−199071(JP,A) 特開 平6−124100(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 G10L 19/04 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) Reference JP-A-7-36495 (JP, A) JP-A-6-153119 (JP, A) JP-A-5-199071 (JP, A) JP-A-6- 124100 (JP, A) (58) Fields surveyed (Int.Cl. 7 , DB name) G10L 19/00 G10L 19/04

Claims (10)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声信号をフレームごとの短期予測
成分と、その予測残差成分とに分け、その予測残差成分
を、適応符号帳と固定符号帳を用いて符号化する方法に
おいて、 入力音声信号を5kHz程度の帯域に制限し、 上記短期予測成分の符号化を、同一ビット割当ての場合
は、3.4kHz帯域の符号化よりも量子化歪が大きく
なるように行い、 上記適応符号帳を用いる符号化を、3.4kHz帯域の
符号化よりも、1サンプルに割当てるビット数を少なく
して行うことを特徴とする音声信号符号化方法。
1. A short-term prediction of an input speech signal for each frame
Component and its prediction residual component, and the prediction residual component
To a method of encoding using the adaptive codebook and the fixed codebook.
Be careful Limit the input audio signal to the band of about 5kHzThen When the above short-term prediction components are coded with the same bit allocation
Has a larger quantization distortion than the encoding in the 3.4 kHz band
To be Encoding using the adaptive codebook is performed in the 3.4 kHz band.
Fewer bits allocated to one sample than encoding
It is characterized by doingSoundVoice signal coding method.
【請求項2】 請求項1記載の符号化方法において、 固定符号帳を切り替えることにより、ビットレート可変
とすることを特徴とする音声信号符号化方法。
2. A coding method according to claim 1 Symbol placement, by switching the fixed code book, the speech signal encoding method characterized by the bit rate varying.
【請求項3】 請求項記載の符号化方法において、 ビットレート切り替え時に、適応符号帳の再初期化を行
わず、切り替え直前の適応符号帳を利用することを特徴
とする音声信号符号化方法。
3. The encoding method according to claim 2 , wherein when the bit rate is switched, the adaptive codebook immediately before switching is used without re-initializing the adaptive codebook. .
【請求項4】 請求項又は記載の符号化方法におい
て、 全てのビットレートにおいて、フレーム長を一定とし、
フレームごとのサブフレーム数をビットレートに応じ変
更することを特徴とする音声符号化方法。
4. The encoding method according to claim 2 or 3 , wherein the frame length is constant at all bit rates,
A voice encoding method characterized in that the number of subframes for each frame is changed according to a bit rate.
【請求項5】 音声信号をフレームごとの短期予測成分
と、その予測残差成分とに分け、その予測残差成分を、
フレームより長い周期的な成分と、その残りの成分とに
分けて符号化する方法により符号化された符号の復号方
法であって、 短期予測成分の符号を、3.4kHz帯域の同一ビット
数の符号の復号に用いられる符号帳よりも量子化歪が大
きくなる符号帳を用いて復号し、 周期的な成分の符号を、3.4kHz帯域の同一ビット
数の符号の復号と、同程度の時間精度で適応符号帳の周
期化を行って、復号することを特徴とする音声信号復号
方法。
5. A speech signal is divided into a short-term prediction component for each frame and its prediction residual component, and the prediction residual component is
A method of decoding a code encoded by a method of separately encoding a periodic component longer than a frame and the remaining component, wherein the code of the short-term prediction component is the same number of bits in the 3.4 kHz band. Decoding is performed using a codebook that has a larger quantization distortion than the codebook used to decode the code, and the code of the periodic component is of the same time as the code of the same number of bits in the 3.4 kHz band. A method for decoding a voice signal, characterized in that the adaptive codebook is cyclicized with high accuracy and then decoded.
【請求項6】 入力音声信号をフレームごとの短期予測
成分と、その予測残差成分とに分け、その予測残差成分
を、適応符号帳と固定符号帳を用いて符号化する符号化
において、 入力音声信号を5kHz程度の帯域に制限するフィルタ
部を備え、 一ビット数が割当てられている場合は、上記短期予測
成分の線形予測分析次数が3.4kHz帯域の符号化の
それよりも大とされ、 上記適応符号帳を用いる符号化には、3.4kHz帯域
の符号化よりも、1サンプルに割当てるビット数
くされていることを特徴とする音声信号符号化
6. An encoding method in which an input speech signal is divided into a short-term prediction component for each frame and a prediction residual component thereof, and the prediction residual component is encoded using an adaptive codebook and a fixed codebook.
In vessels, the filter for limiting the input audio signal in the band of about 5kHz
Comprising a part, if the number of same bits are allocated, the short-term prediction
The linear prediction analysis order of the components of the encoding in the 3.4 kHz band
Is it larger than, the encoding using the adaptive codebook, than the encoding of 3.4kHz band, is it small number of bits allocated to one sample
Rot characteristics and be Ruoto voice signal encoder that is.
【請求項7】 請求項記載の音声信号符号化器におい
て、記憶されている固定符号ベクトルの数が異なる複数の固
定符号帳と、 これら 固定符号帳を、ビットレート制御信号により切り
替え符号化に用いるベクトル切替部を備えることを特徴
とする音声信号符号化
7. The speech signal encoder according to claim 6, wherein a plurality of fixed code vectors in which the number of stored fixed code vectors is different.
A constant codebook, the speech signal encoder characterized in that it comprises a vector switching unit using these fixed codebook, the <br/> re coded cut by the bit rate control signal.
【請求項8】 請求項記載の符号化において、 ビットレート制御信号により固定符号帳が切り替えられ
時に、適応符号帳の再初期化行わず、切り替え直
前の適応符号帳利用されることを特徴とする音声信号
符号化
8. The encoder according to claim 7 , wherein the fixed codebook is switched by a bit rate control signal.
Was sometimes not performed reinitialize the adaptive codebook, the speech signal encoder according to claim Rukoto adaptive codebook immediately before the switching is utilized.
【請求項9】 請求項又は記載の符号化におい
て、 全てのビットレートに対し、フレーム長一定とされ
ビットレートが高い程、フレームごとのサブフレーム数
が大とされていることを特徴とする音声符号化
9. Te encoder smell <br/> according to claim 7, against the all bit rates, the frame length is constant,
The higher the bit rate, the number of subframes per frame
There speech coder, characterized in that there is a large.
【請求項10】 音声信号をフレームごとの短期予測成
分と、その予測残差成分とに分け、その予測残差成分
を、フレームより長い周期的な成分と、その残りの成分
とに分けて符号化する方法により符号化された符号の復
であって、 短期予測成分の符号、3.4kHz帯域の同一ビット
数の符号の復号に用いられる符号帳よりも線形予測次数
が大き符号帳を用いて復号され、 周期的な成分の符号、3.4kHz帯域の同一ビット
数の符号の復号と、同程度の時間制度で適応符号帳
期化されて、復号されることを特徴とする音声信号復号
10. A speech signal is divided into a short-term prediction component for each frame and its prediction residual component, and the prediction residual component is divided into a periodic component longer than a frame and its remaining component and coded. a decoder of an encoded code by the method of reduction, the sign of the short-term prediction component, linear prediction order <br/> than the codebook used for decoding the codes of the same number of bits of 3.4kHz band It is decoded using the code book entry size, the sign of the periodic components, the decoding of the codes of the same number of bits of 3.4kHz band, the adaptive codebook is circumferential <br/> initialized at time system comparable Te, the audio signal decoding, wherein Rukoto decoded
Bowl .
JP03811299A 1999-02-17 1999-02-17 Audio signal encoding method and decoding method, and encoder and decoder thereof Expired - Fee Related JP3490325B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03811299A JP3490325B2 (en) 1999-02-17 1999-02-17 Audio signal encoding method and decoding method, and encoder and decoder thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03811299A JP3490325B2 (en) 1999-02-17 1999-02-17 Audio signal encoding method and decoding method, and encoder and decoder thereof

Publications (2)

Publication Number Publication Date
JP2000235399A JP2000235399A (en) 2000-08-29
JP3490325B2 true JP3490325B2 (en) 2004-01-26

Family

ID=12516403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03811299A Expired - Fee Related JP3490325B2 (en) 1999-02-17 1999-02-17 Audio signal encoding method and decoding method, and encoder and decoder thereof

Country Status (1)

Country Link
JP (1) JP3490325B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
WO2006075605A1 (en) 2005-01-12 2006-07-20 Nippon Telegraph And Telephone Corporation Long-term prediction encoding method, long-term prediction decoding method, devices thereof, program thereof, and recording medium
JP6001451B2 (en) * 2010-10-20 2016-10-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Encoding apparatus and encoding method
JP5197838B2 (en) * 2011-12-06 2013-05-15 株式会社エヌ・ティ・ティ・ドコモ Sound signal encoding method, sound signal decoding method, encoding device, decoding device, sound signal processing system, sound signal encoding program, and sound signal decoding program

Also Published As

Publication number Publication date
JP2000235399A (en) 2000-08-29

Similar Documents

Publication Publication Date Title
KR100391527B1 (en) Voice encoder and voice encoding method
JP4213243B2 (en) Speech encoding method and apparatus for implementing the method
JP3042886B2 (en) Vector quantizer method and apparatus
US6594626B2 (en) Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook
EP0926660B1 (en) Speech encoding/decoding method
JP2009134303A (en) Voice decoding method and device
JPH1091194A (en) Method of voice decoding and device therefor
JPH09127991A (en) Voice coding method, device therefor, voice decoding method, and device therefor
JPH0990995A (en) Speech coding device
JP3357795B2 (en) Voice coding method and apparatus
KR100421648B1 (en) An adaptive criterion for speech coding
EP0865027A2 (en) Method for coding the random component vector in an ACELP coder
JP4008607B2 (en) Speech encoding / decoding method
JP3746067B2 (en) Speech decoding method and speech decoding apparatus
JP3063668B2 (en) Voice encoding device and decoding device
JP2002268686A (en) Voice coder and voice decoder
KR100480341B1 (en) Apparatus for coding wide-band low bit rate speech signal
JPH0944195A (en) Voice encoding device
JP3490325B2 (en) Audio signal encoding method and decoding method, and encoder and decoder thereof
JP3353852B2 (en) Audio encoding method
JPH10242867A (en) Sound signal encoding method
JP3199142B2 (en) Method and apparatus for encoding excitation signal of speech
JP3303580B2 (en) Audio coding device
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JP3232701B2 (en) Audio coding method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081107

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101107

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees