JPH0527798A - Linear predictive parameter encoding method for voice - Google Patents

Linear predictive parameter encoding method for voice

Info

Publication number
JPH0527798A
JPH0527798A JP3180819A JP18081991A JPH0527798A JP H0527798 A JPH0527798 A JP H0527798A JP 3180819 A JP3180819 A JP 3180819A JP 18081991 A JP18081991 A JP 18081991A JP H0527798 A JPH0527798 A JP H0527798A
Authority
JP
Japan
Prior art keywords
matrix
representative
stage
matrices
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3180819A
Other languages
Japanese (ja)
Other versions
JP2897940B2 (en
Inventor
Naka Oomuro
仲 大室
Takehiro Moriya
健弘 守谷
Kazunori Mano
一則 間野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3180819A priority Critical patent/JP2897940B2/en
Publication of JPH0527798A publication Critical patent/JPH0527798A/en
Application granted granted Critical
Publication of JP2897940B2 publication Critical patent/JP2897940B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PURPOSE:To enable matrix quantization and decrease the calculation quantity and storage quantity. CONSTITUTION:P line spectrum couples of a voice are used to form an mp input matrix in units of (m) frames and a distortion decision part 12 calculates the distances (distortion) between the matrices and R1 representative matrices Cij(1) (r) held in a 1st code book 11 in order and sends U representative matrices Cij(1) (ru) (u=1, 2,,U) to a 2nd-stage quantization part in increasing distortion order as candidate quantization values. The 2nd-stage quantization part adds the (r)th Cij(2) (r) among R2 representative matrixed held in a 2nd code book 14 to the (u)th quantized candidate value by a matrix adder 15 and a distortion decision part 16 selects the (u) having the least distortion between this matrix and input matrix Fij(k'). Thus, the selected U matrices in the increasing distortion order are used as 2nd-stage quantization candidate values. Similar processing is performed for respective stages.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は音声スペクトル包絡特
性を表す線形予測パラメータを複数フレーム分蓄えて行
列形式とし、この行列形式のパラメータを、あらかじめ
決められた代表行列で表現して量子化する符号化する方
法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is a code for storing linear prediction parameters representing a speech spectrum envelope characteristic for a plurality of frames in a matrix format, and expressing the parameters in the matrix format by a predetermined representative matrix for quantization. About how to turn.

【0002】[0002]

【従来の技術】従来の音声符号化系において、音声スペ
クトル包絡特性を表す線形フィルタの係数は、線形予測
分析を一定時間間隔で行って計算され、偏自己相関(P
ARCOR)係数や、線スペクトル対(LSP)などの
パラメータに変換、量子化され、ディジタル符号に変換
した後、記憶、または伝送された。これらの方法の詳細
は、例えば、古井貞煕著“ディジタル音声処理”(東海
大学出版会)に記載されている。
2. Description of the Related Art In a conventional speech coding system, a coefficient of a linear filter representing a speech spectrum envelope characteristic is calculated by performing a linear prediction analysis at regular time intervals, and a partial autocorrelation (P
It was converted into a parameter such as an ARCOR coefficient or a line spectrum pair (LSP), quantized, converted into a digital code, and then stored or transmitted. Details of these methods are described in, for example, "Digital Audio Processing" by Sadahiro Furui (Tokai University Press).

【0003】この符号化において、係数を更新する時間
間隔を長くとれば、記憶または伝送のための情報量を減
らすことができるが、あまり長くしすぎると音声を合成
するときに記憶または伝送しなかった時間におけるフィ
ルタ係数の推定精度が低下し、再生音声の品質劣化につ
ながった。そこで、一般には上記時間間隔を20ミリ秒
程度以下に設定している。
In this encoding, if the time interval for updating the coefficient is set long, the amount of information for storage or transmission can be reduced, but if it is set too long, it is not stored or transmitted when synthesizing speech. The estimation accuracy of the filter coefficient at a certain time decreased, which led to the deterioration of the quality of the reproduced voice. Therefore, generally, the time interval is set to about 20 milliseconds or less.

【0004】このような点から、より高能率な符号化を
行うための方法として、マトリクス量子化と呼ばれる方
法がある。これは、線形予測分析は短い時間間隔、例え
ば10ミリ秒から20ミリ秒程度の間隔で行っておき、
数組の分析結果をひとまとめにして量子化する方法であ
る。線形予測パラメータは、時間方向、およびパラメー
タの次元方向にそれぞれ相関性がある。マトリクス量子
化はこの相関性をうまく利用して量子化の効率をあげる
方法である。
From this point of view, there is a method called matrix quantization as a method for performing more efficient coding. This is because the linear prediction analysis is performed at short time intervals, for example, at intervals of about 10 ms to 20 ms,
This is a method of collectively quantizing several sets of analysis results. The linear prediction parameters are correlated in the time direction and the parameter dimension direction, respectively. Matrix quantization is a method that makes good use of this correlation to increase the efficiency of quantization.

【0005】[0005]

【発明が解決しようとする課題】しかしこの方法によっ
て、直接数組の予測パラメータを量子化しようとする
と、非常に多くの計算量と、符号帳のための多くの記憶
とが必要になり、現実的なハードウェア規模のもとでは
それほど能率をあげることができない。この発明の目的
は、マトリクス量子化が量子化歪みを小さくする観点で
高能率であるという利点を生かしつつ、現実的な計算量
と記憶量のもとでの高能率な線形予測パラメータの符号
化方法を提供することにある。
However, if this method is used to directly quantize a few sets of prediction parameters, a very large amount of calculation and a large amount of memory for the codebook are required. Can not be so efficient under the typical hardware scale. It is an object of the present invention to make use of the advantage that matrix quantization is highly efficient from the viewpoint of reducing quantization distortion, and to encode highly efficient linear prediction parameters under a realistic amount of calculation and storage. To provide a method.

【0006】[0006]

【課題を解決するための手段】この発明によればあらか
じめ決められた代表行列のうちで、入力行列との誤差が
最小となる第1段の代表行列を決定し、2以上の任意の
数Nについてあらかじめ決められた代表行列のうちで、
既に決定されている第1段〜第N−1段までの代表行列
の和で表現される行列に、第N段の代表行列を加算した
行列と、入力行列との誤差が最小となるように第N段の
代表行列を決定し、入力行列の量子化値を第1段〜第N
段までの代表行列の和で表現する。
According to the present invention, of the predetermined representative matrices, the first-stage representative matrix having the smallest error from the input matrix is determined, and an arbitrary number N of 2 or more is set. Among the representative matrices that are predetermined for
To minimize the error between the input matrix and the matrix obtained by adding the representative matrix of the Nth stage to the matrix that is already determined and is represented by the sum of the representative matrices of the 1st stage to the (N-1) th stage. The representative matrix of the Nth stage is determined, and the quantized value of the input matrix is set to the 1st stage to the Nth stage.
Expressed as the sum of the representative matrices up to the step.

【0007】このようにして線形予測パラメータのマト
リクス量子化において、量子化の手順を複数の簡易な手
順の組に分解することにより、計算量と記憶量とを現実
的なハードウェア規模において実現可能なレベルにまで
低減する。しかも簡易な手順の組に分解する際に、量子
化効率の低下を極力抑えるように、各段の間に、ディレ
イドディシジョンと呼ばれる手法を用いる。これは、各
段ごとに最適な量子化値をひとつに決定してしまうので
はなく、いくつかの量子化候補を残しておき、全段にお
ける最適量子化値をダイナミックプログラミングの手法
によって決定する。このとき、残しておく候補数は多い
ほど量子化性能の低下を防ぐことができるが、逆に計算
量は候補数に比例して増加するため、目的とするハード
ウェア規模とのかねあいになる。一般には4〜8個あれ
ば十分である。
Thus, in the matrix quantization of the linear prediction parameter, the calculation amount and the storage amount can be realized on a practical hardware scale by decomposing the quantization procedure into a set of a plurality of simple procedures. Reduce to a certain level. Moreover, a method called a delayed decision is used between each stage so as to suppress the decrease in quantization efficiency as much as possible when decomposing into a set of simple procedures. This does not decide one optimum quantized value for each stage, but leaves some quantization candidates and determines the optimum quantized value in all stages by a dynamic programming method. At this time, the larger the number of candidates to be left, the more the quantization performance can be prevented from deteriorating. On the contrary, the amount of calculation increases in proportion to the number of candidates, which is a compromise with the target hardware scale. Generally, 4 to 8 are sufficient.

【0008】さらに計算量と記憶量を低減する方法とし
て、請求項3の発明によれば、2段またはそれ以上に分
割し、2段のときは2段目を、それ以上のときは2段目
以降の任意の段を複数のサブマトリクスに区分けし、各
サブマトリクスごとに最適量子化する。一般に線形予測
パラメータを次元方向と時間方向とに並べたマトリクス
の各行、各列の要素の間には相関性が大きいが、適当な
ビット数のマトリクス量子化器で量子化した、誤差マト
リクスの各要素は、ガウス分布に従い、相関性はないか
または最初のマトリクスに比べて非常に小さいものと考
えられる。従って、2段目以降の量子化には、最初のマ
トリクスを適当なサイズに区分けして、それぞれに最適
量子化をしても、品質の劣化は小さい。しかも1段目と
2段目の間に前記ディレイドディシジョンを用いれば、
更に劣化を小さく抑えることができる。
As a method of further reducing the amount of calculation and the amount of storage, according to the invention of claim 3, it is divided into two stages or more, and when the number of stages is two, the second stage is used, and when there are more stages, the second stage is used. Arbitrary stages after the eye are divided into a plurality of sub-matrices, and optimal quantization is performed for each sub-matrix. Generally, there is a high correlation between the elements of each row and each column of the matrix in which the linear prediction parameters are arranged in the dimension direction and the time direction, but each of the error matrices quantized by a matrix quantizer with an appropriate number of bits. The elements follow a Gaussian distribution and are considered uncorrelated or much smaller than the original matrix. Therefore, even if the first matrix is divided into appropriate sizes and the optimum quantization is performed for each of the second and subsequent quantizations, the deterioration in quality is small. Moreover, if the delayed decision is used between the first stage and the second stage,
Further, the deterioration can be suppressed to be small.

【0009】[0009]

【作用】この発明において、複数の簡易な手順の組に対
して、適当なビット数を割り当てることによって量子化
効率の低下を抑えながら計算量の低減を実現することが
できる。なお、簡易な手順の組に処理を分ける際に、細
かく割れば割るほど計算量は低減できるが、除々に量子
化品質が劣化することはやむを得ない。
According to the present invention, by allocating an appropriate number of bits to a plurality of simple procedure groups, it is possible to realize a reduction in the amount of calculation while suppressing a decrease in quantization efficiency. It should be noted that when dividing the processing into a set of simple procedures, the finer the division, the more the calculation amount can be reduced, but it is unavoidable that the quantization quality gradually deteriorates.

【0010】また、分割後のマトリクスサイズや、分割
後の各サブマトリクスの重要性(聴覚への影響など)の
違いによって、ビット数の割当を不均一にして効果を上
げることもできる。
Further, it is possible to make the allocation of the number of bits non-uniform and improve the effect, depending on the matrix size after division and the importance of each sub-matrix after division (effect on hearing, etc.).

【0011】[0011]

【実施例】以下、この発明の一実施例を図面を参照して
説明する。図1にこの発明による音声の線形予測パラメ
ータ符号化法の実施例を適用した符号化装置の構成例を
示す。入力端子1からは、標本化されたデジタル化され
た音声信号s(t)が入力される。線形予測分析部2で
は、音声信号s(t)のN個のサンプルをいったんデー
タバッファに蓄えた後、これらのサンプルに対して線形
予測分析を行って、一組の線形予測係数ai (k),
(i=1,2,…,p)を算出する。ここで、パラメー
タpは分析次数と呼ばれ、一般には10〜16程度の値
が用いられる。また上記Nサンプルの単位はフレーム更
新周期または単にフレーム周期と呼ばれる。この結果、
N個の入力サンプルに対してp個の線形予測係数が出力
されることになる。そこでここでは、線形予測係数の時
刻を表す単位として、N個のサンプルを単位とした時間
単位をkで表し、「第kフレームのi次の線形予測係数
i (k)」などと呼ぶことにする。なお、各フレーム
時刻kにおいて、p個ずつの線形予測係数が得られるこ
とは言うまでもない。これらの処理方法の詳細は、前述
の古井の著書に記載されている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 shows an example of the configuration of a coding apparatus to which an embodiment of the speech linear prediction parameter coding method according to the present invention is applied. From the input terminal 1, the sampled and digitized audio signal s (t) is input. The linear prediction analysis unit 2 temporarily stores N samples of the audio signal s (t) in a data buffer, and then performs a linear prediction analysis on these samples to obtain a set of linear prediction coefficients a i (k ),
(I = 1, 2, ..., P) is calculated. Here, the parameter p is called an analysis order, and a value of about 10 to 16 is generally used. The unit of N samples is called a frame update cycle or simply a frame cycle. As a result,
For N input samples, p linear prediction coefficients will be output. Therefore, here, as a unit indicating the time of the linear prediction coefficient, a time unit with N samples as a unit is expressed by k, and is called “ i- th order linear prediction coefficient a i (k) of the k-th frame”. To Needless to say, p linear prediction coefficients are obtained at each frame time k. Details of these treatment methods are described in the above-mentioned book by Furui.

【0012】線スペクトル対算出部3では、p個の線形
予測係数を同じくp個の線スペクトル対、fi (k)に
変換する。この実施例において線形予測係数を線スペク
トル対に変換したのは、線スペクトル対の性質が、この
発明における前述の手順の分割に対して、品質の劣化が
少ないという利点を利用するためである。しかしこの発
明においては、この線スペクトル対算出部3は必ずしも
必要ではなく、線形予測係数ai (k)を直接バッファ
部4に入力してもよい。また、線スペクトル対のほか、
偏自己相関(PARCOR)係数など、線形予測係数と
相互変換が可能な任意のパラメータに変換してもよい。
The line spectrum pair calculation unit 3 converts p linear prediction coefficients into p line spectrum pairs, f i (k). The reason the linear prediction coefficients are converted into line spectrum pairs in this example is that the nature of the line spectrum pairs takes advantage of the fact that there is less degradation of quality over the division of the procedure described above in the present invention. However, in the present invention, the line spectrum pair calculation unit 3 is not always necessary, and the linear prediction coefficient a i (k) may be directly input to the buffer unit 4. In addition to line spectrum pairs,
It may be converted into any parameter that can be interconverted with a linear prediction coefficient, such as a partial autocorrelation (PARCOR) coefficient.

【0013】バッファ部4では、p個の線スペクトル対
をmフレーム分、即ちm×p個のパラメータ fi (k−j),i=1,2,…,p j=m−1,m−2,…,1,0 を蓄え、mフレーム分たまった時点で、これらの値をマ
トリクス量子化部5に供給する。図1では説明を簡単に
するため、m=4の場合について示した。
In the buffer section 4, p line-spectrum pairs for m frames, that is, m × p parameters f i (k−j), i = 1, 2, ..., P j = m−1, m. -2, ..., 1, 0 are stored, and these values are supplied to the matrix quantization unit 5 when m frames have been accumulated. In FIG. 1, for simplification of description, the case of m = 4 is shown.

【0014】マトリクス量子化部5によって量子化され
たm×p個のパラメータの組すなわちマトリクス
A set or matrix of m × p parameters quantized by the matrix quantizer 5.

【0015】[0015]

【数1】 は、符号化部6に送られ、伝送路または蓄積形態に合っ
た形式に符号化され、伝送または蓄積される。ここで、
時刻を表すインデックスとしてk′を用いたのは、イン
デックスkで表されるmフレーム分を1単位とする時間
単位であるためである。
[Equation 1] Is sent to the encoding unit 6, encoded in a format suitable for the transmission path or the storage form, and transmitted or stored. here,
The reason why k'is used as the index indicating the time is because it is a time unit with m frames represented by the index k as one unit.

【0016】再生側では、上記符号からマトリクスOn the reproducing side, a matrix is formed from the above codes.

【0017】[0017]

【数2】 を生成し、マトリクス分解部8によって各フレームごと
の線スペクトル対に戻した後、バッファ部9に蓄える。
バッファ部9は、mフレーム分の線スペクトル対を1フ
レームずつ線形予測係数変換部10に送る。線形予測係
数変換部10は、受け取った線スペクトル対の量子化値
を線形予測係数ai * (k)に変換して出力する。
[Equation 2] Is generated and returned to the line spectrum pair for each frame by the matrix decomposition unit 8 and then stored in the buffer unit 9.
The buffer unit 9 sends line spectrum pairs for m frames to the linear prediction coefficient conversion unit 10 frame by frame. The linear prediction coefficient conversion unit 10 converts the quantized value of the received line spectrum pair into a linear prediction coefficient a i * (k) and outputs it.

【0018】図2はこの発明におけるマトリクス量子化
を、簡易な(小規模な)マトリクス量子化器の縱続接続
で実現した一例である。図は簡単のため、3段の構成を
示す。ここで、図1におけるマトリクス量子化部5への
入力 fi (k−j),i=1,2,…,p j=m−1,m−2,…,1,0 をマトリクス形式に並べたものを Fij(k′) と表す。段数をNとすると図2に示すように、N組の符
号帳11,14,18、歪判定部12,16,20、
(N−1)組の行列加算器15,19の縱続的な組み合
わせからなる。行列加算器は1段目が不要である。
FIG. 2 shows an example in which the matrix quantization in the present invention is realized by a cascade connection of simple (small-scale) matrix quantizers. The figure shows a three-stage configuration for simplicity. Here, the inputs f i (k−j), i = 1, 2, ..., P j = m−1, m−2, ..., 1, 0 to the matrix quantization unit 5 in FIG. The side-by-side arrangement is represented as F ij (k '). Assuming that the number of stages is N, as shown in FIG. 2, N sets of codebooks 11, 14, 18, distortion determining units 12, 16, 20,
(N-1) sets of matrix adders 15 and 19 in a continuous combination. The matrix adder does not require the first stage.

【0019】まず、第1符号帳11に保持するR1 個の
各コードマトリクス(代表行列)C ij (1) (r)を順に
歪み判定部12に送る。歪み判定部12では予め定義さ
れた歪み尺度に基づいて入力行列Fij(k′)とコード
マトリクスCij (1) (r)との歪みを計算し、最も歪み
の小さい順にU個のコードマトリクスC
ij (1) (ru ),(u=1,2,…,U)を1段目の量
子化候補値
First, R stored in the first codebook 111Of
Each code matrix (representative matrix) C ij (1)(R) in order
It is sent to the distortion determination unit 12. The distortion determination unit 12 defines in advance
The input matrix F based on the distortion measureij(K ') and code
Matrix Cij (1)Calculate the distortion with (r) and find the most distortion
Code matrix C in ascending order of
ij (1)(Ru), (U = 1, 2, ..., U) is the amount of the first stage
Candidate value

【0020】[0020]

【数3】 として出力する。ここで予め定義された歪み尺度とは、
任意の尺度を用いてよいが、通常は線スペクトル対のユ
ークリッド距離や、いったんケプストラムと呼ばれるパ
ラメータに変換したのち、ユークリッド距離をはかる等
の尺度が用いられる。上記2つの尺度では、後者の方が
人間の聴覚特性に似ているという観点から、一般に優れ
ていると言われている。次に2段目の量子化部では、第
2符号帳14の保持するR2 個のコードマトリクス(代
表行列)のうち、r番目のマトリクスをCij (2) (r)
とし、これを1段目の第u番目の量子化候補値
[Equation 3] Output as. The pre-defined distortion measure here is
Although any scale may be used, usually, a scale such as measuring the Euclidean distance of a line spectrum pair or measuring the Euclidean distance after once converting into a parameter called a cepstrum is used. In the above two scales, the latter is generally said to be superior in that it is more similar to human hearing characteristics. Next, in the second-stage quantization unit, the r-th matrix of the R 2 code matrices (representative matrix) held by the second codebook 14 is C ij (2) (r)
And this is the u-th quantization candidate value in the first stage

【0021】[0021]

【数4】 に行列加算器15で加えてマトリクス[Equation 4] To the matrix adder 15

【0022】[0022]

【数5】 を求める。歪み判定部16では、1段目と同様にしてま
ず入力行列 Fij(k′) と
[Equation 5] Ask for. In the distortion determination unit 16, as in the first stage, first, the input matrix F ij (k ′)

【0023】[0023]

【数6】 との歪みが最小になるようなuを選び、urとする。さ
らに、 Fij(k′) と
[Equation 6] Choose u such that the distortion between and is the minimum, and let it be ur. Furthermore, with F ij (k ')

【0024】[0024]

【数7】 との歪みが小さい順にU個のマトリクス[Equation 7] U matrix in ascending order of distortion with

【0025】[0025]

【数8】 を2段目の量子化候補値として量子化候補保持部17に
保持する。以後、各段において同様の手順を繰り返すこ
とにより、N段の小規模マトリクス量子化器の縱続接続
によるひとつのマトリクス量子化器を構成する。なお、
最終段においては、U個の量子化候補を保持する必要が
なく、最も歪みの小さい最適な量子化値に決定してよ
い。
[Equation 8] Is stored in the quantization candidate holding unit 17 as the second-stage quantization candidate value. After that, by repeating the same procedure in each stage, one matrix quantizer is constructed by the cascade connection of the N-stage small-scale matrix quantizers. In addition,
In the final stage, it is not necessary to hold U quantization candidates, and the optimum quantization value with the smallest distortion may be determined.

【0026】図3は図2の構成よりもさらに計算量を削
減するための構成の一例である。図3の構成は、図2の
構成において、段数を2段にし、第2段目を変形した形
になっている。1段目量子化部39は図2における1段
目と全く同様にして、U個の量子化候補値
FIG. 3 shows an example of a structure for further reducing the calculation amount as compared with the structure of FIG. The configuration of FIG. 3 is a modification of the configuration of FIG. 2 in that the number of stages is two and the second stage is modified. The first-stage quantizing unit 39 does the same as the first-stage quantizing unit 39 in FIG.

【0027】[0027]

【数9】 を得る。次に、この量子化候補値を順に2段目の量子化
部40に送る。2段目の量子化部40では、まず、サブ
マトリクス分割部24で1段目の量子化(候補)マトリ
クスを、適当なサイズのサブマトリクスに区分けする。
図3では、簡単のため4つに区分けしたものとして示し
た。区分けする個数及び区分けされたサブマトリクスの
サイズは、量子化の品質(能率)という観点からすれ
ば、個数は少なく、サイズは大きい方が優れている。し
かし、この発明では、計算量をハードウェア規模に見合
った量に削減することを目的としているので、ハードウ
ェア規模によって個数とサイズが制約されることにな
る。現在のハードウェア技術の進歩を考慮すれば、1段
目も含めて、各小規模マトリクス量子化器に割り当てる
ビット数が、8〜10ビット程度になるようなサブマト
リクスの個数と、サイズに設定すれば、実時間処理が可
能であると考えられる。ただし、ハードウェア価格を下
げたい場合には、さらに多くのサブマトリクスに区分け
しても良い。ここでは、一例として、図4に示すように
区分けされたものとする。また、区分けするときに、必
ずしも連続する行、および連続する列でサブマトリクス
をつくる必要はなく、例えば、もとのマトリクスの1行
目と8〜10行目、1列目と4列目で4×2のサブマト
リクスを作っても良い。
[Equation 9] To get Next, the quantized candidate values are sequentially sent to the second-stage quantizer 40. In the second-stage quantizing unit 40, first, the sub-matrix dividing unit 24 divides the first-stage quantizing (candidate) matrix into sub-matrices having an appropriate size.
In FIG. 3, it is shown as being divided into four for simplification. From the viewpoint of quantization quality (efficiency), the number of divided blocks and the size of the divided sub-matrix are better when the number is smaller and the size is larger. However, since the present invention aims to reduce the amount of calculation to an amount commensurate with the hardware scale, the number and size are limited by the hardware scale. Considering the progress of current hardware technology, set the number and size of sub-matrices such that the number of bits allocated to each small-scale matrix quantizer becomes about 8 to 10 bits including the first stage. If so, real-time processing is considered possible. However, if it is desired to reduce the hardware price, it may be divided into more sub-matrices. Here, as an example, it is assumed that they are divided as shown in FIG. Further, when dividing, it is not always necessary to form a sub-matrix with continuous rows and continuous columns. For example, in the first row and the 8th to 10th rows, the 1st column and the 4th column of the original matrix, You may create a 4x2 submatrix.

【0028】2段目量子化部40では、サブマトリクス
分割部41で入力マトリクス Fij(k′) も同様の区分けをする。各サブマトリクスに区分けされ
た Fij(k′) と
In the second-stage quantizer 40, the sub-matrix divider 41 also divides the input matrix F ij (k ') in the same manner. F ij (k ') divided into each sub-matrix and

【0029】[0029]

【数10】 の第s番目のサブマトリクスのサイズをps ×ms
し、それぞれ
[Equation 10] Let p s × m s be the size of the s-th sub-matrix of

【0030】[0030]

【数11】 とおく。ただし、 Σs s =p Σs s =m とする。[Equation 11] far. However, Σ s p s = p Σ s m s = m.

【0031】区分けされた1段目の第u番目の量子化候
補サブマトリクスは、それぞれs番目の行列加算器に送
られる。第2,5符号帳はps ×ms のコードマトリク
ス(代表行列)をR2s個蓄えている。これを Cij (2s)(r) とする。これらを順に行列加算器に送り、 Fsij(k′) と
The divided u-th quantization candidate sub-matrix in the first stage is sent to each s-th matrix adder. The second and fifth codebooks store R 2s code matrixes (representative matrices) of p s × m s . Let this be C ij (2s) (r). These are sequentially sent to the matrix adder, and Fs ij (k ') and

【0032】[0032]

【数12】 との歪みが最も小さくなるコードrを求める。すべての
sについて1段目の第u番目の量子化候補に対する最適
量子化サブマトリクスを決定した後、すべてのサブマト
リクスは、マトリクス合成部37に送られ、もとのマト
リクス形式に戻される。これを
[Equation 12] The code r with the smallest distortion with is obtained. After determining the optimum quantized sub-matrix for the u-th quantized candidate in the first stage for all s, all the sub-matrices are sent to the matrix synthesizing unit 37 and returned to the original matrix form. this

【0033】[0033]

【数13】 で表す。これと、入力マトリクス Fij(k′) との歪みが最小になるように一段目の候補の中から最適
な候補uを歪み判定部38で決定し、マトリクス量子化
器5の出力とする。
[Equation 13] It is represented by. The optimum candidate u is determined from the first-stage candidates by the distortion determination unit 38 so that the distortion with this and the input matrix F ij (k ′) is minimized, and is used as the output of the matrix quantizer 5.

【0034】なお、各符号帳の作成方法については説明
を省略したが、LBGアルゴリズムによって高性能な符
号帳を設計することができる。LBGアルゴリズムにつ
いては、文献Y.Linde,A.Buzo,R.M.
Gray:“AnAlgorithm for Vec
tor Quantizer Design”,IEE
E Trans.Commum.COM−28,p.p
84−951980に記載されている。
Although the description of the method of creating each codebook is omitted, a high-performance codebook can be designed by the LBG algorithm. For the LBG algorithm, see Y. Linde, A .; Buzo, R .; M.
Gray: "AnAlgorithm for Vec
tor Quantizer Design ”, IEEE
E Trans. Commum. COM-28, p. p
84-951980.

【0035】この発明は、音声符号化への応用のほか、
音声認識や話者認識などの、線形予測パラメータを音声
の特徴量として用いるアプリケーションへの応用が可能
である。またこの発明は、その一部または、全部を論理
回路の組み合わせによるハードウェアで実現してもよい
し、一部または全部をソフトウェアプログラムの形で実
現してもよい。
The present invention is applied to speech coding as well as
It can be applied to applications such as speech recognition and speaker recognition that use linear prediction parameters as speech feature quantities. Further, the present invention may be partially or wholly realized by hardware that is a combination of logic circuits, or may be partially or entirely realized in the form of a software program.

【0036】[0036]

【発明の効果】この発明によって実際にどれだけ計算量
が削減されるかを次の例によって示す。例えば、10次
元の線形予測パラメータを時間方向に4つまとめたマト
リクスを作り、これを量子化するために40ビットを与
えたとする。これをそのままマトリクス量子化しようと
すると、記憶パターンは 240(パターン) 計算量は、 80×240(回) の加減算、 40×240(回) の乗算と、 240(回) の比較演算が必要となり、現実的なハードウェア規模の
もとでは実現不可能である。
The following example shows how much the present invention actually reduces the calculation amount. For example, it is assumed that a matrix in which four 10-dimensional linear prediction parameters are arranged in the time direction is created and 40 bits are given to quantize the matrix. If we try to quantize this as it is, the memory pattern is 2 40 (pattern), the calculation amount is 80 × 2 40 (times) addition / subtraction, 40 × 2 40 (times) multiplication, and 2 40 (times) comparison. Calculation is required, and it is impossible to achieve under realistic hardware scale.

【0037】この発明のひとつめの方法、すなわち図2
に示す構成によって、10ビットずつ4段に分割したと
すると、ディレイドディシジョンを用いない、即ち候補
が1つの場合の記憶量は、 210×4=4096(パターン) 計算量は、 80×210×4=327680(回) の加減算、 40×210×4=163840(回) の乗算と、 210×4=4096(個) の比較演算となり、十分実現可能である。ディレイドデ
ィシジョンを用いても、加減算、乗算、比較演算が候補
数に比例して増えるのみであるから、4〜8個の候補で
あれば十分可能である。ハードウェアが許せば、分割す
る段数は少ない方が分割による品質の劣化が少ない。
The first method of the present invention, that is, FIG.
Assuming that 10 bits are divided into 4 stages by the configuration shown in FIG. 4, the storage amount when delay decision is not used, that is, when there is one candidate is 2 10 × 4 = 4096 (pattern), and the calculation amount is 80 × 2 10 It is x4 = 327680 (times) addition / subtraction, 40 × 2 10 × 4 = 163840 (times) multiplication, and 2 10 × 4 = 4096 (pieces) comparison operations, which are sufficiently realizable. Even if the delayed decision is used, addition / subtraction, multiplication, and comparison operations only increase in proportion to the number of candidates, so that 4 to 8 candidates are sufficient. If the hardware permits, the smaller the number of stages to be divided, the less the deterioration of quality due to the division.

【0038】さらに2つめの方法、すなわち図3に示す
構成によって、1段目のマトリクス量子化に10ビッ
ト、2段目を図4の様に6×2のマトリクスを2つと、
4×4のマトリクス1つに区分けし、それぞれに10ビ
ットを割り当てて量子化をしたとすると、ディレイドデ
ィシジョンを用いない、即ち候補が1つの場合の記憶量
は、 210×4=4096(パターン) 計算量は、 (80+32+24×2)×210=163840(回) の加減算、 (40+16+12×2)×210=81920(回) の乗算と、 210×4=4096(個) の比較演算となり、ビットの分割が上記ひとつめの方法
と同じでも、計算量はさらに半分になっている。上記例
ではビットの分割を同じにして計算量の比較ができるよ
うにしたが、実際にはもっと細かく割ってもよく、細か
く割るほど計算量は低減される。その特別な例として、
サブマトリクスが時間方向1次、パラメータ次元方向全
次元のベクトルになるように分割すれば、マトリクス量
子化の誤差に対して、ベクトル量子化を適用することに
なり、さらに小さく分割して1行列要素ごとになるよう
に分割すれば、マトリクス量子化の誤差に対してスカラ
量子化を適用したことになる。
Further, with the second method, that is, with the configuration shown in FIG. 3, 10 bits are used for the first-stage matrix quantization, and the second stage is provided with two 6 × 2 matrices as shown in FIG.
If the matrix is divided into one 4 × 4 matrix, and 10 bits are allocated to each matrix and quantization is performed, the memory capacity without delay decision, that is, in the case of one candidate is 2 10 × 4 = 4096 (pattern ) Computation amount is (80 + 32 + 24 × 2) × 2 10 = 163840 (times) addition / subtraction, (40 + 16 + 12 × 2) × 2 10 = 81920 (times) multiplication, and 2 10 × 4 = 4096 (pieces) comparison operation Therefore, even if the bit division is the same as the first method, the calculation amount is halved. In the above example, the division of bits is made the same so that the calculation amounts can be compared. However, actually, the calculation amount may be divided into smaller pieces, and the smaller the division amount is, the smaller the calculation amount is. As a special example,
If the sub-matrix is divided so that it becomes a vector of primary in the time direction and full dimension in the parameter dimension direction, vector quantization is applied to the error of the matrix quantization. If the division is performed as follows, the scalar quantization is applied to the matrix quantization error.

【0039】さらに、2つめの方法を用いると、計算量
が低減できるのみならず、2段目の計算を並列処理プロ
セッサによって、並列処理することが可能になる。マト
リクス量子化において最も計算量がかかるのが、コード
マトリクスを加算して、歪みを判定し、最適コードを決
定する処理である。ひとつめの構成は縱続接続であるた
め、前から順に処理しなければならないが、2つめの方
法では、並列処理ができるため、並列化した分さらに高
速に処理することができる。
Furthermore, when the second method is used, not only the amount of calculation can be reduced, but also the second-stage calculation can be processed in parallel by the parallel processing processor. The most computationally intensive process in matrix quantization is the process of adding code matrices, determining distortion, and determining the optimum code. Since the first configuration is a serial connection, processing must be performed sequentially from the front, but with the second method, parallel processing can be performed, and thus processing can be performed even faster due to parallelization.

【図面の簡単な説明】[Brief description of drawings]

【図1】マトリクス量子化法による音声の線形予測パラ
メータ符号化法の一般的構成例を示すブロック図。
FIG. 1 is a block diagram showing a general configuration example of a linear prediction parameter coding method for speech by a matrix quantization method.

【図2】この発明の第1実施例の要部であり、小規模な
マトリクス量子化器を縱続に接続して符号化するマトリ
クス量子化部の一例を示すブロック図。
FIG. 2 is a block diagram showing an example of a matrix quantizer which is a main part of the first embodiment of the present invention and which connects and encodes small-scale matrix quantizers in series.

【図3】図2の構成において、2段の量子化部を縱続接
続し、さらに2段目を複数のサブマトリクスに区分けし
て符号化するマトリクス量子化部の一例を示すブロック
図。
FIG. 3 is a block diagram showing an example of a matrix quantization unit that connects two stages of quantization units in a cascade connection in the configuration of FIG. 2 and further divides the second stage into a plurality of sub-matrices for encoding.

【図4】サブマトリクスに区分けする区分けの一例を示
す図。
FIG. 4 is a diagram showing an example of division into sub-matrices.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 音声スペクトル包絡特性を表す線形予測
パラメータを、フレームと呼ばれる一定時間間隔で算出
し、 そのパラメータを、複数フレーム分蓄えて行列形式に変
換し、 その行列形式で表現されたパラメータ(入力行列)を、
あらかじめ決められた代表行列で表現して量子化する線
形予測パラメータ符号化方法において、 あらかじめ決められた代表行列のうちで、上記入力行列
との誤差が最小となる第1段の代表行列を決定し、 2以上の任意の数Nについて、上記あらかじめ決められ
た代表行列のうちで、既に決定されている第1段〜第N
−1段までの代表行列の和で表現される行列に、第N段
の代表行列を加算した行列と、上記入力行列との誤差が
最小となるように第N段の代表行列を決定し、 上記入力行列の量子化値を上記第1段〜第N段までの代
表行列の和で表現することを特徴とした音声の線形予測
パラメータ符号化方法。
1. A linear prediction parameter representing a speech spectrum envelope characteristic is calculated at a constant time interval called a frame, the parameter is stored for a plurality of frames and converted into a matrix format, and the parameter expressed in the matrix format ( Input matrix),
In a linear prediction parameter coding method in which a predetermined representative matrix is used for quantization, a first-stage representative matrix having a minimum error from the input matrix is determined from among the predetermined representative matrices. , The first to Nth stages that have already been determined among the predetermined representative matrices for any number N of 2 or more.
The N-th stage representative matrix is determined so that the error between the matrix obtained by adding the N-th stage representative matrix to the matrix expressed by the sum of the representative matrices up to -1 stage and the input matrix is minimized, A linear prediction parameter coding method for speech, characterized in that the quantized value of the input matrix is represented by the sum of the representative matrices of the first to Nth stages.
【請求項2】 上記第1段〜第N−1段までの代表値を
決定する際に、最適な代表行列ただ1つに決定してしま
うのではなく、いくつかの候補を残した後、第N段の代
表行列を決定した時点で、第1段〜第N段までの代表行
列の和で表される行列と、入力行列との誤差が最小とな
るように第1段〜第N段までの代表行列を決定すること
を特徴とする請求項1記載の音声の線形予測パラメータ
符号化方法。
2. When determining the representative values of the first to (N-1) th stages, the optimal representative matrix is not determined to be only one but after leaving some candidates, When the representative matrix of the Nth stage is determined, the first stage to the Nth stage are minimized so that the error between the matrix represented by the sum of the representative matrices of the first stage to the Nth stage and the input matrix is minimized. The linear predictive parameter coding method for speech according to claim 1, characterized in that the representative matrices up to are determined.
【請求項3】 上記第N段の代表行列を決定する際に、
第1段〜第N−1段までの代表行列の和で表される行列
と入力行列とを、それぞれより小さいサイズの行列に区
分けし、 それぞれ区分けされた小さいサイズの行列をあらかじめ
決められた小さいサイズの代表行列で表し、 第N段の代表値を上記小さいサイズの行列の組で表現す
ることを特徴とする請求項1または2記載の音声の線形
予測パラメータ符号化方法。
3. When determining the representative matrix of the N-th stage,
The matrix represented by the sum of the representative matrices from the 1st stage to the (N-1) th stage and the input matrix are each divided into smaller-sized matrices, and the respective divided small-sized matrices are set to a predetermined small size. 3. A speech linear prediction parameter coding method according to claim 1, wherein the representative value of the size is represented by a representative matrix of the Nth stage and the representative value of the Nth stage is represented by a set of the matrices of the smaller size.
JP3180819A 1991-07-22 1991-07-22 Speech linear prediction parameter coding method Expired - Lifetime JP2897940B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3180819A JP2897940B2 (en) 1991-07-22 1991-07-22 Speech linear prediction parameter coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3180819A JP2897940B2 (en) 1991-07-22 1991-07-22 Speech linear prediction parameter coding method

Publications (2)

Publication Number Publication Date
JPH0527798A true JPH0527798A (en) 1993-02-05
JP2897940B2 JP2897940B2 (en) 1999-05-31

Family

ID=16089915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3180819A Expired - Lifetime JP2897940B2 (en) 1991-07-22 1991-07-22 Speech linear prediction parameter coding method

Country Status (1)

Country Link
JP (1) JP2897940B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086597A (en) * 1994-06-21 1996-01-12 Nec Corp Device and method for coding exciting signal of voice
JP2008242029A (en) * 2007-03-27 2008-10-09 Casio Comput Co Ltd Speech encoding device, speech decoding device, speech encoding method, speech decoding method, and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60224341A (en) * 1984-04-20 1985-11-08 Nippon Telegr & Teleph Corp <Ntt> Voice encoding method
JPH02144598A (en) * 1988-11-25 1990-06-04 Nippon Telegr & Teleph Corp <Ntt> Sound coding method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60224341A (en) * 1984-04-20 1985-11-08 Nippon Telegr & Teleph Corp <Ntt> Voice encoding method
JPH02144598A (en) * 1988-11-25 1990-06-04 Nippon Telegr & Teleph Corp <Ntt> Sound coding method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086597A (en) * 1994-06-21 1996-01-12 Nec Corp Device and method for coding exciting signal of voice
JP2008242029A (en) * 2007-03-27 2008-10-09 Casio Comput Co Ltd Speech encoding device, speech decoding device, speech encoding method, speech decoding method, and program

Also Published As

Publication number Publication date
JP2897940B2 (en) 1999-05-31

Similar Documents

Publication Publication Date Title
US6952671B1 (en) Vector quantization with a non-structured codebook for audio compression
US5208862A (en) Speech coder
JP3114197B2 (en) Voice parameter coding method
AU703046B2 (en) Speech encoding method
JPH04363000A (en) System and device for voice parameter encoding
JP3143956B2 (en) Voice parameter coding method
EP0786762B1 (en) Vector encoding method and encoder/decoder using the method
JP2800618B2 (en) Voice parameter coding method
US5926785A (en) Speech encoding method and apparatus including a codebook storing a plurality of code vectors for encoding a speech signal
KR101083291B1 (en) Method and device for vector quantization
JP2655046B2 (en) Vector quantizer
JP2000338998A (en) Audio signal encoding method and decoding method, device therefor, and program recording medium
US20040176951A1 (en) LSF coefficient vector quantizer for wideband speech coding
JP2626492B2 (en) Vector quantizer
JP2897940B2 (en) Speech linear prediction parameter coding method
JP3793111B2 (en) Vector quantizer for spectral envelope parameters using split scaling factor
JPH0783316B2 (en) Mass vector quantization method and apparatus thereof
JP3088163B2 (en) LSP coefficient quantization method
JP3255189B2 (en) Encoding method and decoding method for voice parameter
JP3296363B2 (en) Speech linear prediction parameter coding method
JP3194930B2 (en) Audio coding device
JP3052274B2 (en) LSP quantization method
JP3252285B2 (en) Audio band signal encoding method
GB2199215A (en) A stochastic coder
JP3420222B2 (en) Gain shape vector quantization method and speech coding method and apparatus using the same

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 13