JP3252285B2 - Audio band signal encoding method - Google Patents
Audio band signal encoding methodInfo
- Publication number
- JP3252285B2 JP3252285B2 JP10183490A JP10183490A JP3252285B2 JP 3252285 B2 JP3252285 B2 JP 3252285B2 JP 10183490 A JP10183490 A JP 10183490A JP 10183490 A JP10183490 A JP 10183490A JP 3252285 B2 JP3252285 B2 JP 3252285B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- codebook
- code
- sound source
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声帯域信号、特に音声信号と音声帯域モ
デム信号を低いビットレート、特に8〜4.8kb/s程度で
高品質に符号化するための音声帯域信号符号化方式に関
する。DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention encodes a voice band signal, particularly a voice signal and a voice band modem signal, with high quality at a low bit rate, especially about 8 to 4.8 kb / s. And a voice band signal encoding method for the same.
音声信号を8〜4.8kb/s程度の低いビットレートで符
号化する方式としては、例えば、M.Schroeder and B.At
al氏による“Code−excited linear prediction:High Q
uality Speech at very low bit rates"(Proc.ICASSP,
pp,937−940,1985年)と題した論文(文献1)等に記載
されているCELP(Code Excited LPC Coding)が知られ
ている。この方法では、送信側では、フレーム毎(例え
ば20ms)に音声信号から音声信号のスペクトル特性を表
すスペクトルパラメータを抽出し、フレームをさらに小
区間サブフレーム(例えば5ms)に分割し、サブフレー
ム毎に過去の音源信号をもとに長時間相関(ピッチ相
関)を表すピッチパラメータを抽出し、ピッチパラメー
タによりサブフレームの音声信号を長期予測し、長期予
測して求めた残差信号に対して、予め定められた種類の
雑音信号からなるコードブックから選択した信号により
合成した信号と、音声信号との誤差電力を最小化するよ
うに一種類の雑音信号を選択するとともに、最適なゲイ
ンを計算する。そして選択された雑音信号の種類を表す
インデクスとゲイン、ならびにスペクトルパラメータと
ピッチパラメータを伝送する。As a method of encoding an audio signal at a low bit rate of about 8 to 4.8 kb / s, for example, M. Schroeder and B. At
al “Code-excited linear prediction: High Q
uality Speech at very low bit rates "(Proc.ICASSP,
pp, 937-940, 1985), a CELP (Code Excited LPC Coding) described in a paper (Reference 1) and the like is known. In this method, the transmitting side extracts a spectrum parameter representing a spectrum characteristic of a voice signal from a voice signal for each frame (for example, 20 ms), further divides the frame into small-section subframes (for example, 5 ms), and A pitch parameter representing a long-term correlation (pitch correlation) is extracted based on a past sound source signal, and a long-term prediction of a subframe speech signal is performed based on the pitch parameter. One kind of noise signal is selected so as to minimize the error power between a signal synthesized from a code book composed of a predetermined kind of noise signal and a speech signal, and an optimum gain is calculated. Then, an index and a gain representing the type of the selected noise signal, and a spectrum parameter and a pitch parameter are transmitted.
上述した文献1の従来方式では、高音質を得るために
は、一般に、雑音信号から構成されるコードブックのビ
ットサイズを10ビット以上に極めて大きくする必要があ
るため、コードブックを探索して最適な雑音信号(コー
ドワード)を求めるために膨大な演算量が必要であると
いう問題点があった。さらに、コードブックが基本的に
雑音信号から構成されるために、コードブックから選択
された音源信号により再生された再生し音声の音質は雑
音感が伴うという問題点があった。In the above-mentioned conventional method of Reference 1, in order to obtain high sound quality, it is generally necessary to extremely increase the bit size of a codebook composed of noise signals to 10 bits or more. There is a problem that an enormous amount of calculation is required to obtain a suitable noise signal (codeword). Furthermore, since the codebook is basically composed of a noise signal, there is a problem that the sound quality of the reproduced voice reproduced by the sound source signal selected from the codebook is accompanied by noise.
さらに従来方式では、音声帯域のモデム信号などを入
力したときに、コードブックがモデムに最適でないため
に、特性が劣化するという問題点があった。Further, in the conventional method, when a modem signal or the like in a voice band is input, the codebook is not optimal for the modem, so that there is a problem that characteristics are deteriorated.
本発明の目的は、上述した問題点を解決し、比較的少
ない演算量及びメモリ量により、8〜4.8kb/s程度で音
質が良好で、かつ音声帯域のモデム信号に対しても良好
な特性の得られる音声帯域信号符号化方式を提供するこ
とにある。SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems, and achieve a good sound quality at about 8 to 4.8 kb / s and a good characteristic for a modem signal in a voice band with a relatively small amount of computation and memory. Is to provide a voice band signal encoding method that can be obtained.
第1の発明は、入力した離散的な音声帯域信号を予め
定められた時間長のフレームに分割し、前記入力信号の
スペクトル包絡を表すスペクトルパラメータを求めて出
力し、前記フレームを予め定められた時間長の小区間に
分割し、過去の音源信号をもとに再生した信号が前記入
力信号に近くなるようにピッチパラメータを求めて前記
入力信号に対してピッチ予測を行い残差信号を求め、音
声信号あるいは前記音声信号以外の音声帯域信号をもと
に予め学習して構成した複数種類のコードベクトルが格
納された第1のコードブックから前記残差信号または前
記音声信号との歪みを小さくするコードベクトルを選択
し、既知の統計的特性を有するかあるいは予め学習して
構成したコードベクトルが格納された第2のコードブッ
クから前記差信号との歪みを小さくするコードベクトル
を選択し、前記第1のコードブックから選択されたコー
ドベクトルと前記第2のコードブックから選択されたコ
ードベクトルとを用いて、前記入力信号の音源を表して
出力することを特徴とする。A first invention divides an input discrete voice band signal into frames of a predetermined time length, obtains and outputs spectral parameters representing a spectral envelope of the input signal, and outputs the frames in a predetermined manner. Divided into small sections of time length, a signal reproduced based on a past sound source signal is obtained as a pitch parameter so as to be close to the input signal, a pitch prediction is performed on the input signal to obtain a residual signal, A distortion from the residual signal or the audio signal is reduced from a first codebook in which a plurality of types of code vectors previously learned and configured based on an audio signal or an audio band signal other than the audio signal are stored. A code vector is selected, and the difference signal is obtained from a second code book in which a code vector having a known statistical characteristic or a code vector configured by learning in advance is stored. A code vector for reducing distortion is selected, and a sound source of the input signal is represented and output using a code vector selected from the first code book and a code vector selected from the second code book. It is characterized by the following.
第2の発明は、入力した離散的な音声帯域信号を予め
定められた時間長のフレームに分割し、前記入力信号の
スペクトル包絡を表すスペクトルパラメータを求めて出
力し、前記フレームを予め定められた時間長の小区間に
分割し、過去の音源信号をもとに再生した信号が前記入
力信号に近くなるようにピッチパラメータを求めて前記
入力信号に対してピッチ予測を行い残差信号を求め、音
声信号あるいは前記音声信号以外の音声帯域信号をもと
に予め学習して構成した複数種類のコードベクトルが格
納された第1のコードブックから前記残差信号または前
記音声信号との歪みを小さくするコードベクトルを選択
し、既知の統計的特性を有するかあるいは予め学習して
構成したコードベクトルが格納された第2のコードブッ
クから前記残差信号または前記音声信号との歪みを小さ
くするコードベクトルを選択し、予め構成した第3のコ
ードブックを用いて前記ピッチパラメータあるいは前記
音源信号のゲインの少なくとも一方を量子化して出力
し、前記第1のコードブックから選択されたコードベク
トルと前記第2のコードブックから選択されたコードベ
クトルと前記ゲインとの重み付き線形結合により、前記
入力信号の音源信号を表して出力することを特徴とす
る。A second invention divides an input discrete voice band signal into frames of a predetermined time length, obtains and outputs a spectrum parameter representing a spectrum envelope of the input signal, and outputs the frame in a predetermined manner. Divided into small sections of time length, a signal reproduced based on a past sound source signal is obtained as a pitch parameter so as to be close to the input signal, a pitch prediction is performed on the input signal to obtain a residual signal, A distortion from the residual signal or the audio signal is reduced from a first codebook in which a plurality of types of code vectors previously learned and configured based on an audio signal or an audio band signal other than the audio signal are stored. Selecting a code vector and storing said residual signal from a second code book in which a code vector having known statistical characteristics or a code vector previously learned and stored is stored. Alternatively, a code vector for reducing distortion with the audio signal is selected, and at least one of the pitch parameter or the gain of the sound source signal is quantized and output using a third codebook configured in advance. And a weighted linear combination of the code vector selected from the code book, the code vector selected from the second code book, and the gain, and represents and outputs the excitation signal of the input signal.
本発明による音声帯域信号符号化方式の作用を説明す
る。The operation of the voice band signal encoding method according to the present invention will be described.
第1の発明では、フレームを分割したサブフレーム毎
に、下式を最小化するように、入力音声帯域信号を表す
音源信号を求める。In the first invention, a sound source signal representing an input voice band signal is obtained for each subframe obtained by dividing a frame so as to minimize the following expression.
ここでx(n)は音声帯域信号、β,mは長期相関にも
とづくピッチ予測(適応コードブック)のピッチパラメ
ータ、すなわちゲイン及び遅延であり、v(n)は過去
の音源信号である。h(n)はスペクトルパラメータに
より構成される合成フィルタのインパルス応答、w
(n)は聴感重み付けフィルタのインパルス応答を示
す。記号*は畳み込み演算を示す。なお、w(n)の詳
細については前記文献1を参照できる。 Here, x (n) is a voice band signal, β, m are pitch parameters of pitch prediction (adaptive codebook) based on long-term correlation, that is, gain and delay, and v (n) is a past sound source signal. h (n) is the impulse response of the synthesis filter composed of spectral parameters, w
(N) shows the impulse response of the auditory weighting filter. The symbol * indicates a convolution operation. For details of w (n), reference can be made to Reference 1.
また、d(n)はコードブックにより表される音源信
号を示し、下式のように、第1のコードブックから選択
されたコードワードc1(n)と第2のコードブックから
選択されたコードワードc2(n)との線形結合で表され
る。Also, d (n) indicates a sound source signal represented by a codebook, and as shown in the following equation, a codeword c 1 (n) selected from the first codebook and a codeword c 1 (n) selected from the second codebook. It is represented by a linear combination with the code word c 2 (n).
ここでγ1,γ2は選択されたコードワードc1j(n),
c2j(n)のゲインを示す。従って、本発明では、2種
類のコードブックに分解して音源信号が表されることに
なるため、各コードブックはコードブック全体のビット
数の1/2でよい。例えばコードブック全体のビット数を1
0ビットとすると、第1,第2のコードブックは5ビット
ずつでよく、コードブック探索の演算量を大幅に低減で
きる。 Where γ 1 and γ 2 are the selected codewords c 1j (n),
Indicates the gain of c 2j (n). Therefore, in the present invention, since the sound source signal is represented by being decomposed into two types of codebooks, each codebook may be half the number of bits of the entire codebook. For example, if the number of bits in the entire codebook is 1
If the number of bits is 0, the first and second codebooks need only be 5 bits each, and the amount of calculation for codebook search can be greatly reduced.
各コードブックとして前記文献1のような雑音コード
ブックを用い、(2)式のように分割すると、特性的に
は10ビット分のコードブックよりも劣化し全体で7〜8
ビット分の性能しか出せない。When a noise codebook as described in Reference 1 is used as each codebook and the codebook is divided as shown in Expression (2), the codebook is characteristically degraded compared to a 10-bit codebook and has a total of 7 to 8 bits.
Only a bit worth of performance can be obtained.
そこで、本発明では、高性能を得るために、第1のコ
ードブックはトレーニングデータを用いて予め学習させ
ることにより構成する。ここで第1のコードブックとし
ては、音声信号に対して学習したコードブックと、音声
以外の音声帯域信号に対して学習したコードブックとを
有する。以下では、入力信号として、音声信号と音声帯
域のモデム信号とを対象とし、音声信号に対して最適に
学習したコードブックと、音声帯域のモデム信号に対し
て最適に学習したコードブックとの2種類を第1のコー
ドブックとして有するものとする。Therefore, in the present invention, in order to obtain high performance, the first codebook is configured by learning in advance using training data. Here, the first codebook includes a codebook learned for an audio signal and a codebook learned for an audio band signal other than audio. In the following, a codebook optimally learned for a voice signal and a codebook optimally learned for a modem signal in a voice band are used as input signals for a voice signal and a modem signal in a voice band. It is assumed that the type is provided as a first codebook.
学習によるコードブックの構成法としては、例えば、
Lindeらによる“An Algorithm for Vector Quantizatio
n Design"と題した論文(IEEE Trans.COM−28,pp.84−9
5,1980年)(文献2)等が知られている。As a method of constructing a codebook by learning, for example,
“An Algorithm for Vector Quantizatio by Linde et al.
n Design "(IEEE Trans.COM-28, pp.84-9
5, 1980) (Reference 2).
学習のときの距離尺度としては、通常、2乗距離(ユ
ークリッド距離)が用いられるが、本発明では2乗距離
よりも性能の良好な次式による聴感重み付け距離尺度を
用いる。As a distance measure at the time of learning, a square distance (Euclidean distance) is usually used, but in the present invention, an auditory weighting distance scale that has better performance than the square distance and is represented by the following equation is used.
ここでtj(n)はj番目のトレーニングデータ、c
1(n)はクラスタ1のコードワードである。クラスタ
1のセントロイド(代表コードワード)は、クラスタ1
内のトレーニングデータを用いて(4)式あるいは
(5)式を最小化するように求める。 Where t j (n) is the j-th training data, c
1 (n) is the code word of cluster 1. The centroid (representative codeword) of cluster 1 is cluster 1
Equation (4) or Equation (5) is determined to be minimized using the training data in.
(5)式においてgは最適ゲインを示す。 In the equation (5), g indicates an optimum gain.
一方、第2のコードブックは、第1のコードブックに
よるトレーニングデータ依存性を救済するために、前記
文献1のガウス性雑音信号のような予め統計的特性が確
定した雑音信号あるいは乱数信号からなるコードブック
や、他の特性を有するコードブックを使用する。なお、
雑音コードブックに対して、ある距離尺度のもとで選別
を行うことにより、さらに特性が改善される。詳細はT.
Moriya氏らによる“Transform Coding of Speechusing
a Weighted Vector Quantizer,"と題した論文(IEEE,J.
Sel,Areas,Commun.,pp.425−431,1989年)(文献3)等
を参照することができる。また、第1のコードブックに
より再生した信号と入力信号との誤差信号を用いて第2
のコードブックを学習により構成することもできる。On the other hand, the second codebook is composed of a noise signal or random number signal whose statistical characteristics have been determined in advance, such as the Gaussian noise signal of Document 1, in order to relieve the training data dependency due to the first codebook. Use codebooks or codebooks with other characteristics. In addition,
By selecting the noise codebook based on a certain distance measure, the characteristics are further improved. See T. for details.
“Transform Coding of Speechusing by Moriya et al.
a Weighted Vector Quantizer, "(IEEE, J.
Sel, Areas, Commun., Pp. 425-431, 1989) (Reference 3). Further, a second signal is obtained by using an error signal between the signal reproduced by the first codebook and the input signal.
Can be constructed by learning.
第2の発明では、第1,第2のコードブックから最適な
コードワードを選択した後に、ピッチパラメータのゲイ
ンと第1,第2のコードブックのゲインγ1,γ2の少なく
とも一つを、予め学習により構成したコードブック(第
3のコードブック)を用いて効率的にベクトル量子化す
る。In the second aspect of the invention, first, after selecting the optimum codeword from the second codebook, the pitch parameters gain and first, gain gamma 1 of the second codebook, at least one gamma 2, Vector quantization is efficiently performed using a codebook (third codebook) configured in advance by learning.
例えば、第1,第2のコードブックのゲインをベクトル
量子化するとすると、ベクトル量子化において、最適コ
ードワードの探索は、次式を最小化するコードワードを
選択する。For example, assuming that the gains of the first and second codebooks are vector-quantized, the search for the optimal codeword in the vector quantization selects the codeword that minimizes the following equation.
ここでγ′iは各コードワードの示すベクトル量子化
したゲインの値である。またci(n)は、第1,第2のコ
ードブックから選択されたコードワードである。(6)
式において、 とすると、(6),(7)式から次式を得る。 Here, γ ′ i is the value of the vector-quantized gain indicated by each codeword. C i (n) is a codeword selected from the first and second codebooks. (6)
In the formula, Then, the following equation is obtained from the equations (6) and (7).
ここで である。また、(8)式の第1項は定数であるから、コ
ードワードの探索は(8)式の第2項を最大化するもの
を選択すればよい。 here It is. Further, since the first term of the equation (8) is a constant, the search for the codeword may be selected to maximize the second term of the equation (8).
また、コードブック探索の演算量を大幅に低減するた
めには、下式に従いコードワードの選択を行ってもよ
い。Further, in order to greatly reduce the calculation amount of the codebook search, a codeword may be selected according to the following equation.
ゲインのベクトル量子化用のコードブックは、多量の
ゲインの値からなるトレーニングデータを用いて予め学
習により構成する。コードブックの学習には前記文献2
の方法を用いることができる。ここで学習の際の距離尺
度は通常2乗距離であるが、さらに特性を改善するため
に、次式の距離尺度を用いる。 The codebook for vector quantization of gain is configured by learning in advance using training data including a large amount of gain value. Reference 2
Can be used. Here, the distance scale at the time of learning is usually a square distance, but in order to further improve the characteristics, a distance scale represented by the following equation is used.
ここでγtiはトレーニング用のゲインデータである。
γ′i1はゲインコードブックのクラスタ1における代表
コードワードである。 Here, γ ti is gain data for training.
γ ′ i1 is a representative codeword in cluster 1 of the gain codebook.
(10)式の距離尺度を用いるときは、クラスタ1にお
けるセントロイドSc1iは次式を最小化するように求め
る。When the distance scale of the equation (10) is used, the centroid Sc 1i in the cluster 1 is obtained so as to minimize the following equation.
一方、学習における演算量を大幅に低減するためには
通常の2乗距離による次式の距離尺度を用いてもよい。 On the other hand, in order to greatly reduce the amount of calculation in learning, a distance scale expressed by the following equation using a normal square distance may be used.
〔実施例〕 第1図は、第1の発明による音声帯域符号化方式の一
実施例に適用される音声帯域信号符号化装置を示すブロ
ック図である。 [Embodiment] FIG. 1 is a block diagram showing an audio band signal encoding apparatus applied to an embodiment of an audio band encoding system according to the first invention.
図において、送信側では、入力端子100から音声信号
を入力し、1フレーム分(例えば20ms)の音声信号をバ
ッファメモリ110に格納する。In the figure, on the transmission side, an audio signal is input from an input terminal 100, and an audio signal for one frame (for example, 20 ms) is stored in a buffer memory 110.
LPC分析回路130は、フレームの音声信号のスペクトル
特性を表すパラメータとして、LSPパラメータをフレー
ムの音声信号から周知のLPC分析を行い予め定められた
次数Lだけ計算する。この具体的な計算法については前
記文献1を参照することができる。次にLSP量子化回路1
40は、LSPパラメータを予め定められた量子化ビット数
で量子化し、得た符号1kをマルチプレクサ260へ出力す
るとともに、これを復号化してさらに線形予測係数ai′
(i=1〜L)に変換して重み付け回路200,インパルス
応答計算回路170,合成フィルタ281へ出力する。LSPパラ
メータの符号化、LSPパラメータから線形予測係数への
変換の方法についてはSugamura氏らによる“Quantize D
isign in LSP Speech Analysis−Synthesis"と題した論
文(IEEE J.Sel,Areas,Commun.,pp.432−440,1988年)
(文献4)等を参照することができる。The LPC analysis circuit 130 performs a well-known LPC analysis on the speech signal of the frame as a parameter representing the spectral characteristic of the speech signal of the frame, and calculates a predetermined order L. Reference 1 can be referred to for the specific calculation method. Next, LSP quantization circuit 1
40 quantizes the LSP parameter with a predetermined number of quantization bits, outputs the obtained code 1 k to the multiplexer 260, decodes this, and further decodes the linear prediction coefficient a i ′
(I = 1 to L) and output to the weighting circuit 200, the impulse response calculation circuit 170, and the synthesis filter 281. The method of encoding LSP parameters and converting LSP parameters to linear prediction coefficients is described in “Quantize D by Sugamura et al.
isign in LSP Speech Analysis-Synthesis "(IEEE J. Sel, Areas, Commun., pp.432-440, 1988)
(Reference 4) can be referred to.
サブフレーム分割回路150は、フレームの入力音声帯
域信号をサブフレームに分割する。ここで例えばフレー
ム長は20ms、サブフレーム長は5msとする。The subframe division circuit 150 divides an input audio band signal of a frame into subframes. Here, for example, the frame length is 20 ms, and the subframe length is 5 ms.
減算器190は、サブフレームに分割された入力信号か
ら合成フィルタ281の出力を減算して出力する。The subtractor 190 subtracts the output of the synthesis filter 281 from the input signal divided into subframes and outputs the result.
重み付け回路200は、減算した信号に対して周知の聴
感重み付けを行う。聴感重み付け関数の詳細は前記文献
1を参照できる。The weighting circuit 200 performs well-known auditory weighting on the subtracted signal. Reference 1 can be referred to for details of the auditory sensation weighting function.
適応コードブック210は、合成フィルタ281の入力信号
v(n)を遅延回路206を介して入力し、さらにインパ
ルス応答出力回路170から重み付けインパルス応答h
w(n)、重み付け回路200から重み付け信号を入力し、
長期相関にもとづくピッチ予測を行い、ピッチパラメー
タとして遅延Mとゲインβを計算する。以下の説明では
適応コードブック210の予測次数は1とするが、2次以
上の高次とすることもできる。1次の適応コードブック
における遅延M,ゲインβの計算法は、Kleijin“Improve
d speech quality and efficient vector quantization
in SELP"と題した論文(ICASSP、pp.155−158年、1988
年)(文献5)等に記載されている。さらに求めたゲイ
ンβをゲイン量子化器220により予め定められた量子化
ビット数で量子化復号化し、ゲインβ′を求め、これを
用いて次式により予測信号w(n)を計算し減算器20
5に出力する。また遅延Mをマルチプレクサ260へ出力す
る。The adaptive codebook 210 inputs the input signal v (n) of the synthesis filter 281 via the delay circuit 206, and further outputs the weighted impulse response h from the impulse response output circuit 170.
w (n), a weighting signal is input from the weighting circuit 200,
Pitch prediction is performed based on the long-term correlation, and delay M and gain β are calculated as pitch parameters. In the following description, the prediction order of the adaptive codebook 210 is set to 1, but may be set to a second or higher order. The calculation method of the delay M and the gain β in the first-order adaptive codebook is described in Kleijin “Improve
d speech quality and efficient vector quantization
in SELP "(ICASSP, pp. 155-158, 1988
Year) (Reference 5). Further, the obtained gain β is quantized and decoded by the gain quantizer 220 with a predetermined number of quantization bits to obtain a gain β ′, which is used to calculate a prediction signal w (n) by the following equation, and 20
Output to 5. The delay M is output to the multiplexer 260.
上式でv(n−M)は過去の音源信号で、合成フィル
タ281の入力信号である。hw(n)はインパルス応答計
算回路170で求めた重み付けインパルス応答である。 In the above equation, v (n−M) is a past sound source signal, which is an input signal of the synthesis filter 281. h w (n) is a weighted impulse response obtained by the impulse response calculation circuit 170.
遅延回路206は、合成フィルタ入力信号v(n)を1
サブフレーム分遅延させて適応コードブック210へ出力
する。The delay circuit 206 sets the synthesis filter input signal v (n) to 1
Output to adaptive codebook 210 after delaying by a subframe.
減算器205は、重み付け回路200の出力信号から適応コ
ードブック210の出力を減算し次式の残差信号ew(n)
を第1のコードブック探索回路230に出力する。The subtractor 205 subtracts the output of the adaptive codebook 210 from the output signal of the weighting circuit 200, and calculates a residual signal e w (n) of the following equation.
To the first codebook search circuit 230.
インパルス応答計算回路170は、聴感重み付けした合
成フィルタのインパルス応答hw(n)を予め定められた
サンプル数Lだけ計算する。具体的な計算法は、前記文
献1等を参照できる。 The impulse response calculation circuit 170 calculates the impulse response h w (n) of the synthesis filter weighted by the auditory sense for a predetermined number L of samples. For a specific calculation method, reference can be made to Document 1 and the like.
第1のコードブック探索回路230は、音声信号に対し
て学習して構成したコードブック235と音声帯域モデム
信号に対して学習して構成したコードブック236との両
者を探索し、用いて最適なコードワードc1j(n)を探
索する。ここで作用の項に記したように、コードブック
235,236は、あらかじめトレーニング信号を用いて学習
しておく。The first codebook search circuit 230 searches for both the codebook 235 constructed by learning the speech signal and the codebook 236 constructed by learning the speech band modem signal, and uses the optimum Search for codeword c 1j (n). As mentioned in the section on operations,
235 and 236 are learned in advance using a training signal.
第2図は第1のコードブック探索回路230の構成を示
すブロック図である。コードワードの探索は下式に従
う。FIG. 2 is a block diagram showing a configuration of the first codebook search circuit 230. The search for the codeword follows the formula below.
(21)式を最小化するγ1を求めるためには、(21)
式をγ1で偏微分として0とおくことにより得た下式を
用いる。 (21) to determine the gamma 1 that minimizes the expression (21)
Using the formula obtained by placing a 0 as partial differential equation with gamma 1.
ただし このとき(21)式は となる。ここで(25)式の第1項は定数であるので、第
2項を最大化するようにコードブック235,236の各々を
全て探索してコードワードcj(n)を選択し、(22)式
からゲインγ1を計算する。 However At this time, equation (21) is Becomes Here, since the first term of the equation (25) is a constant, all of the codebooks 235 and 236 are searched to maximize the second term, and a codeword c j (n) is selected. Γ 1 is calculated from
第2図において、相互相関感空計算回路410は、(2
3)式の計算を行い、自己相関関数計算回路420は(24)
式の計算を行い、判別回路430は(25)式の計算を行
い、コードワードcj(n)を選択し、それを表すインデ
クスを出力する。In FIG. 2, the cross-correlation sensation calculation circuit 410 includes (2
3) Calculate the equation, and the autocorrelation function calculation circuit 420 calculates (24)
The formula is calculated, and the determination circuit 430 calculates the formula (25), selects the code word c j (n), and outputs an index representing the code word c j (n).
また、コードブックの探索に要する演算量を低減する
には、以下の方法を用いることもできる。Further, the following method can be used to reduce the amount of calculation required for searching the codebook.
ただし ここでμ(i),vk(i)は、それぞれhw(n)のi次
遅れの自己相関、コードワードc1k(n)のi次遅れの
自己相関を示す。 However Here, μ (i) and v k (i) indicate the autocorrelation of the i-th delay of h w (n) and the autocorrelation of the i-th delay of the codeword c 1k (n), respectively.
以上の方法により求めたコードワードを示すインデク
スをマルチプレクサ260に出力する。また、選択された
コードワードcj(n)を乗算器241に出力する。また、
2種のコードブック235,236のうち、いずれのコードブ
ックを用いるかの判別符号をマルチプレクサ260に出力
する。つまり、最適なコードワードcj(n)がコードブ
ック235から選択されたときは、コードブック235を示す
符号を、コードブック236から選択されたときはコード
ブック236を示す符号を出力する。The index indicating the codeword obtained by the above method is output to the multiplexer 260. Further, it outputs the selected codeword c j (n) to multiplier 241. Also,
A determination code indicating which codebook to use from the two types of codebooks 235 and 236 is output to the multiplexer 260. That is, when the optimal codeword c j (n) is selected from the codebook 235, a code indicating the codebook 235 is output, and when selected from the codebook 236, a code indicating the codebook 236 is output.
乗算器241は、コードワードcj(n)にゲインγ1を
下式により乗じて次式の音源信号q(n)を求め合成フ
ィルタ250へ出力する。Multiplier 241, a gain gamma 1 codeword c j (n) is multiplied by the following expression to output to the synthesis filter 250 obtains the equation of the sound source signal q (n).
合成フィルタ250は乗算器241の出力q(n)を入力
し、下式に従い重み付け合成信号yw(n)を求め出力す
る。 The synthesis filter 250 receives the output q (n) of the multiplier 241 and calculates and outputs a weighted synthesized signal y w (n) according to the following equation.
減算器255は、ew(n)からyw(n)を減算して第2
のコードブック探索回路270へ出力する。 The subtractor 255 subtracts y w (n) from e w (n) to obtain a second
To the codebook search circuit 270.
第2のコードブック探索回路270は、第2のコードブ
ック275から最適なコードワードを計算する。第2のコ
ードブック探索回路の構成は、第2図に示した第1のコ
ードブック探索回路の構成と基本的に同一の構成を用い
ることができる。また、コードワードの探索法として
は、第1のコードブックの探索と同一の方法を用いるこ
とができ、第2のコードブックの構成法としては、作用
の項で述べたように、学習コードブックの高効率を保ち
ながらトレーニングデータ依存性を救済するために、乱
数系列からなるコードブックを用いる。乱数系列からな
るコードブックの構成法は前記文献2を参照できる。The second codebook search circuit 270 calculates an optimal codeword from the second codebook 275. The configuration of the second codebook search circuit can be basically the same as the configuration of the first codebook search circuit shown in FIG. Further, the same method as the first codebook search can be used as a codeword search method, and the second codebook can be constructed as described in the section of the operation, In order to relieve the training data dependency while maintaining high efficiency, a codebook composed of a random number sequence is used. Reference 2 can be referred to for a method of constructing a codebook composed of a random number sequence.
また、コードブック探索の演算量の低減化のために、
第2のコードブックとして、重畳型(overlap)乱数コ
ードブックを用いることができる。重畳型乱数コードブ
ックの構成法,コードワード探索法については、前記文
献2等を参照できる。In addition, in order to reduce the amount of calculation for codebook search,
As the second codebook, an overlap random codebook can be used. For the construction method of the superimposed random number codebook and the codeword search method, reference can be made to the aforementioned reference 2.
ゲイン量子化器286は、作用に述べた方法により、予
め学習により前記(12),(13)式を用いて音声信号に
対して最適に作成したゲインコードブック287と、音声
帯域モデム信号に対して最適に作成したコードブック28
8とを用いて、ゲインγ1,γ2をベクトル量子化する。The gain quantizer 286 is provided with a gain codebook 287 that is optimally created for a voice signal using the above-described equations (12) and (13) by learning in advance, and a gain quantizer 286 for a voice-band modem signal. And optimally created codebook 28
8 and vector quantize the gains γ 1 and γ 2 .
ベクトル量子化の際の最適なコードワードの選択に
は、前記(8)式を用いる。The above-mentioned equation (8) is used for selecting an optimal codeword at the time of vector quantization.
第3図はゲイン量子化器286の構成を示すブロック図
である。図において、再生回路505は、c1(n),c
2(n),hw(n)を入力して前記(9)式,(10)式に
もとづき、sw1(n),sw2(n)を求める。FIG. 3 is a block diagram showing the configuration of the gain quantizer 286. In the figure, the reproduction circuit 505 includes c 1 (n), c
2 (n) and h w (n) are input, and s w1 (n) and s w2 (n) are obtained based on the above equations (9) and (10).
相互相関関数計算回路500,自己相関関数計算回路510
は、ew(n)、再生回路505の出力であるsw1(n),sn2
(n)、ゲインコードブック287,288の出力であるコー
ドワードを入力し、前記(8)式の第2項以下の各項を
計算する。最大値判別回路520は、コードブック287,288
を併せて第(8)式の第2項以下の最大値を判別し、そ
のときのコードワードを示すインデクスを出力する。Cross-correlation function calculation circuit 500, auto-correlation function calculation circuit 510
Is, e w (n), s w1 is the output of the reproducing circuit 505 (n), s n2
(N) Input the codeword output from the gain codebooks 287 and 288, and calculate the second and subsequent terms of the above equation (8). The maximum value discriminating circuit 520 is a codebook 287,288
In addition, the maximum value of the second term or less in equation (8) is determined, and an index indicating the codeword at that time is output.
ゲイン復号回路530は前記インデクスを用いてゲイン
を復号化して出力する。そしてコードブックのインデク
スをマルチプレクサ260に出力する。またゲインの復号
化値γ1′,γ2′を乗算器242に出力する。The gain decoding circuit 530 decodes the gain using the index and outputs the result. Then, the index of the codebook is output to multiplexer 260. The decoded values γ 1 ′ and γ 2 ′ of the gain are output to the multiplier 242.
乗算器242は、第1,第2のコードブックにより選択さ
れたコードワードc1(n),c2(n)に対してそれぞれ
量子化復号化したゲインγ1′,γ2′に乗じて合成フ
ィルタ281に出力する。The multiplier 242 multiplies the codewords c 1 (n) and c 2 (n) selected by the first and second codebooks by the gains γ 1 ′ and γ 2 ′ that are quantized and decoded, respectively. Output to the synthesis filter 281.
合成フィルタ281は、乗算器242の出力v(n)を入力
し、下式により合成音声を1フレーム分求め、さらにも
う1フレーム分は0の系列をフィルタに入力して応答信
号系列を求め、1フレーム分の応答信号系列を減算器19
0に出力する。The synthesis filter 281 receives the output v (n) of the multiplier 242, obtains a synthesized voice for one frame by the following equation, and inputs a sequence of 0 for another frame to the filter to obtain a response signal sequence. One frame of the response signal sequence is subtracted by 19
Output to 0.
ただし マルチプレクサ260は、LSP量子化器140,第1のコード
ブック探索回路230,第2のコードブック探索回路270,ゲ
イン量子化器286の出力符号系列を組みあわせて出力す
る。 However The multiplexer 260 combines and outputs the output code sequences of the LSP quantizer 140, the first codebook search circuit 230, the second codebook search circuit 270, and the gain quantizer 286.
以上で第1の発明の実施例の説明を終える。 This concludes the description of the first embodiment of the present invention.
第4図は、第2の発明の一実施例を示すブロック図で
ある。図において、第1図と同一の番号を付した構成要
素は、第1図と同一の動作を行うので説明を省略する。FIG. 4 is a block diagram showing one embodiment of the second invention. In the figure, components having the same numbers as in FIG. 1 perform the same operations as in FIG.
図において、量子化器225は、前記(16),(17)式
にもとづき予め学習して構成したコードブック226を用
いて、適応コードブックのゲインをベクトル量子化す
る。最適なコードワードの選択には前記(15)式を用い
る。さらに量子化器225は、選択されたコードワードの
インデクスを示す符号をマルチプレクサ260へ出力する
と共に、ゲインを量子化復号化して出力する。In the figure, a quantizer 225 vector-quantizes the gain of an adaptive codebook using a codebook 226 that has been learned and configured in advance based on the above equations (16) and (17). The above equation (15) is used for selecting an optimal codeword. Further, the quantizer 225 outputs a code indicating the index of the selected codeword to the multiplexer 260, and quantizes and decodes the gain to output.
以上で第2の発明の実施例の説明を終える。 This concludes the description of the embodiment of the second invention.
以上の説明では、適応コードブックのゲイン、第1,第
2のコードブックのゲインには同時最適化を施さなかっ
たが、適応コードブック,第1のコードブック,第2の
コードブックのゲインについて、同時最適化を行い、さ
らに特性を改善する。この同期最適化は、作用の項で述
べたように、第1,第2のコードブックのコードワードを
求めるときに適用するとさらに特性が改善される。In the above description, the adaptive codebook gain and the gains of the first and second codebooks are not simultaneously optimized, but the gains of the adaptive codebook, the first codebook, and the second codebook are not described. , Perform simultaneous optimization and further improve the characteristics. As described in the section of the operation, this synchronization optimization is further improved when it is applied when obtaining the codewords of the first and second codebooks.
例えば、適応コードブックの遅延,ゲインβを求めた
後に、第1のコードブックのコードワードc1j(n),
ゲインγ1を探索するときに、各コードワード毎に、次
式を最小化するように解いてβとγ1を同時最適化す
る。For example, after determining the delay and gain β of the adaptive codebook, the codewords c 1j (n),
When searching a gain gamma 1, for each codeword, simultaneously optimizing the β and gamma 1 solving to minimize following equation.
これから、 ここで、 である。 from now on, here, It is.
次に、第2のコードワードを決定するときに、次式を
最小化するように適応コードブックのゲイン、第1,第2
のコードブックのゲインを同時最適化する。Next, when determining the second codeword, the gain of the adaptive codebook, the first, second,
Optimize codebook gains simultaneously.
なお、減算量の低減化のために、第1のコードブック
のコードワード探索のときに前記(33)式によるゲイン
最適化を行い、第2のコードブックの探索のときには行
わない構成とすることもできる。 In order to reduce the amount of subtraction, the gain is optimized by the equation (33) at the time of searching the codeword of the first codebook, and is not performed at the time of searching the second codebook. Can also.
また、さらに演算量を低減するためには、コードブッ
クのコードワードの探索のときにはゲインの最適化を行
わずに、第1のコードブックのコードワードが選択され
たときに、適応コードブックと第1のコードブックのゲ
インの同時最適化を行い、第2のコードブックのコード
ワードが選択されたときには、適応コードブックと第1,
第2のコードブックのゲインを同時に最適化する構成を
用いることもできる。Further, in order to further reduce the amount of computation, when searching for a codeword in the codebook, the gain is not optimized, and when the codeword in the first codebook is selected, the adaptive codebook and the The gain of the first codebook is jointly optimized, and when the codeword of the second codebook is selected, the adaptive codebook and the first,
A configuration that simultaneously optimizes the gain of the second codebook may be used.
また、さらに演算量を低減化するためには、第1と第
2のコードブックのコードワードが選択された後に、適
応コードブックのゲインβ1と、第1,第2のコードブッ
クのゲインγ1,γ2の3種を同時に最適化するような構
成とすることもできる。Further, in order to further reduce the amount of computation, after the code words of the first and second codebooks is selected, the gain beta 1 of the adaptive codebook, first, the gain of the second codebook γ 1 may be configured such that at the same time optimize three of gamma 2.
また、適応コードブックのゲイン、第1,第2のコード
ブックのゲインγ1,γ2のベクトル量子化における最適
コードワードの選択には、演算量低減化のためにそれぞ
れ前記(18)式,(11)式を用いることもできる。In addition, the selection of the optimal codeword in the vector quantization of the gain of the adaptive codebook and the gains γ 1 and γ 2 of the first and second codebooks is performed by using the above equations (18), Equation (11) can also be used.
また、第1のコードブック探索回路において、サブフ
レーム毎にコードブック235,236のいずれから最適なコ
ードワードが選択されたかを判別して、ゲインのベクト
ル量子化を行うときに、この判別信号を用いて、コード
ブック287,288を予め選択しておき片方のみのゲインコ
ードブックを探索するようにしてもよい。このような構
成とすることにより、ゲインコードブックは両方を探索
する必要がないので、演算量を低減化できる。In addition, the first codebook search circuit determines which of the codebooks 235 and 236 has been selected the best codeword for each subframe, and uses this determination signal when performing vector quantization of gain. Alternatively, the codebooks 287 and 288 may be selected in advance, and only one gain codebook may be searched. With such a configuration, the gain codebook does not need to search both, so that the amount of calculation can be reduced.
また、前記実施例において、第1のコードブックの探
索法は実施例の方法以外にも他の周知な方法を用いるこ
とができる。例えば、前記文献1に記載の方法や、予め
コードブックの各コードワードc1j(n)の直交変換c1
(k)を求めて格納しておき、サブフレーム毎に、重み
付けインパルス応答hw(n)の直交変換Hw(k)と、残
差信号ew(n)の直交変換Ew(k)を予め定められた点
数だけ求め、前記(13),(14)式の代わりに下式を用
いてもよい。In the above-described embodiment, the first codebook search method may use other well-known methods other than the method of the embodiment. For example, the method described in Document 1 or the orthogonal transformation c 1 of each codeword c 1j (n) in the codebook in advance.
(K) is obtained and stored, and for each sub-frame, the orthogonal transform H w (k) of the weighted impulse response h w (n) and the orthogonal transform E w (k) of the residual signal e w (n) May be obtained by a predetermined score, and the following expression may be used instead of the expressions (13) and (14).
そして(37),(38)式を逆直交変換して、相互相関
関数Gj,自己相関関数Cjを計算し、前記(25),(22)
式に従いコードワードの探索,ゲインの計算をするよう
な構成としてもよい。このとき、直交変換としては、フ
ーリエ変換、あるいはFFT、コサイン変換などを用いる
ことができる。この方法によれば、前記(13),(14)
式の畳み込み演算を周波数軸上で乗算に帰着できるので
演算量を低減することができる。 Then, the equations (37) and (38) are inversely orthogonally transformed, and the cross-correlation function G j and the auto-correlation function C j are calculated.
A configuration in which a code word is searched and a gain is calculated according to the formula may be adopted. At this time, a Fourier transform, an FFT, a cosine transform, or the like can be used as the orthogonal transform. According to this method, the above (13), (14)
Since the convolution operation of the expression can be reduced to multiplication on the frequency axis, the amount of operation can be reduced.
また、第2のコードブックの探索法としては、前記実
施例の方法以外にも上記で示した方法や、前記文献5に
記載の方法や、他の周知な良好な方法を用いることがで
きる。As the second codebook search method, in addition to the method of the above-described embodiment, the method described above, the method described in the above-mentioned document 5, and other well-known good methods can be used.
また、第2のコードブックの構成法としては、前記実
施例に記載した方法以外に、例えば予め膨大な乱数系列
をコードブックとして用意して、それらを用いてトレー
ニングデータに対して乱数系列の探索を行い、選択され
る頻度が高いものからコードワードとして登録して第2
のコードブックを構成することもできる。なお、この構
成法は、第1のコードブックの構成にも適用することが
できる。As a method of constructing the second codebook, in addition to the method described in the above embodiment, for example, an enormous random number sequence is prepared in advance as a codebook, and the random number sequence is searched for training data by using them. And register it as a codeword from the one that is selected
Can be configured. This configuration method can also be applied to the configuration of the first codebook.
また、前記実施例では、第1,第2のコードブックのゲ
インをベクトル量子化したが、適応コードブックのゲイ
ンβと、第1,第2のコードブックのゲインγ1,γ2を別
々に、あるいはこれらをまとめてベクトル量子化するよ
うな構成をとることもできる。このとき、これらのコー
ドブックを音声信号に対して最適に学習したコードブッ
クと、音声帯域モデム信号に対して最適に学習したコー
ドブックを用意しておく。このときの学習によるベクト
ル量子化器のコードブックの作成は、前記文献2を参照
できる。In the above embodiment, the gains of the first and second codebooks are vector-quantized. However, the gain β of the adaptive codebook and the gains γ 1 and γ 2 of the first and second codebooks are separately calculated. Alternatively, a configuration in which these are collectively vector-quantized can be adopted. At this time, a codebook optimally learning these codebooks for voice signals and a codebook optimally learning for voiceband modem signals are prepared. The creation of the codebook of the vector quantizer by learning at this time can be referred to the above-mentioned reference 2.
また、前記実施例では、適応コードブックの次数は1
としたが、2次以上の高次とすることもできる。また、
次数は1次のままで遅延を整数値ではなく少数値とする
こともできる。これらについての詳細は、例えばMarque
氏らによる“Pitch Prediction with Fractional Delay
s in CELP Coding"と題した論文(EUROSPEECH,pp.509−
513,1989年)(文献6)等を参照できる。以上のように
した方が特性は向上するが、ゲインあるいは遅延の伝送
に必要な情報量が若干増大する。In the above embodiment, the order of the adaptive codebook is 1
However, a higher order than the second order can be used. Also,
The delay may be a decimal value instead of an integer value while keeping the order. For more information on these, see Marque
"Pitch Prediction with Fractional Delay
s in CELP Coding "(EUROSPEECH, pp.509-
513, 1989) (Reference 6). Although the characteristics are improved as described above, the amount of information necessary for transmitting the gain or the delay slightly increases.
また、前記実施例では、スペクトルパラメータとして
Kパラメータ、LSPパラメータを符号化し、その分析法
としてLPC分析を用いたが、スペクトルパラメータとし
ては他の周知なパラメータ、例えばLPCケプストラム,
ケプストラム,改良ケプストラム,一般化ケプストラ
ム,メルケプストラムなどを用いることもできる。また
各パラメータに最適な分析法を用いることができる。Further, in the above embodiment, the K parameter and the LSP parameter are encoded as the spectrum parameters, and the LPC analysis is used as the analysis method, but other known parameters such as the LPC cepstrum,
Cepstrum, improved cepstrum, generalized cepstrum, mel cepstrum and the like can also be used. In addition, an optimal analysis method can be used for each parameter.
また、フレームで求めたLPC係数をLSP上や線形予測係
数上でサブフレーム毎に補間し、補間した係数を用いて
適応コードブック、第1,第2のコードブックの探索を行
う構成としてもよい。このような構成とすることによ
り、音質がさらに改善される。Further, the LPC coefficient obtained in the frame may be interpolated for each subframe on the LSP or linear prediction coefficient, and the adaptive codebook and the first and second codebooks may be searched using the interpolated coefficient. . With such a configuration, the sound quality is further improved.
また、LSP係数は周知の方法により、ベクトル量子
化、あるいはベクトル−スカラ量子化することにより、
さらに効率的に符号化することができる。ベクトル−ス
カラ量子化の方法については、例えば前記文献3等を参
照できる。このような構成とするときは、ベクトル量子
化のコードブックとして、音声信号に対して最適に学習
したコードブックと、音声帯域モデム信号に対して最適
に学習したコードブックとを有しておき、これらから最
良なコードワードを選択する構成とすることにより、さ
らに特性を改善できる。In addition, the LSP coefficient is obtained by vector quantization or vector-scalar quantization by a known method,
It is possible to encode more efficiently. For the method of vector-scalar quantization, for example, the above-mentioned Document 3 can be referred to. In such a configuration, as a codebook for vector quantization, a codebook optimally learned for an audio signal and a codebook optimally learned for an audio band modem signal are provided. By selecting the best codeword from these, the characteristics can be further improved.
また、演算量を低減するために、送信側では影響信号
の計算を省略することもできる。これによって、送信側
における合成フィルタ281,減算器190は不要となり演算
量低減が可能となるが、音質は若干低下する。Further, in order to reduce the amount of calculation, the transmission side may omit the calculation of the influence signal. This eliminates the necessity of the synthesis filter 281 and the subtractor 190 on the transmission side, thus making it possible to reduce the amount of computation, but slightly lowers the sound quality.
また、演算量を低減するために、重み付け回路200を
サブフレーム分割回路150の前に配置させ、合成フィル
タ281では下式により重み付け合成信号を計算するよう
にしてもよい。In addition, in order to reduce the amount of calculation, the weighting circuit 200 may be arranged before the subframe division circuit 150, and the synthesis filter 281 may calculate the weighted synthesized signal by the following equation.
ここでγは聴感重み付けの程度を決める重み付け係数
である。 Here, γ is a weighting coefficient that determines the degree of hearing weighting.
また、受信側では、量子化雑音を整形することにより
聴覚的に聞き易くするために、ピッチとスペクトル包絡
の少なくとも1つについて動作する適応形ポストフィル
タを付加してもよい。適応型ポストフィルタの構成につ
いては、例えば、Kroon氏らによる“A Class of Analys
is−by−synthesis Predictive Coders for High Quali
ty Speech Coding at Rates between 4.8 and 16kb/s,"
(IEEE JSAC,vol.6,2,353−363,1988)(文献7)等を
参照できる。Also, on the receiving side, an adaptive post filter that operates on at least one of the pitch and the spectral envelope may be added in order to make the quantization noise shaped to make it easier to hear. For the configuration of the adaptive post filter, see, for example, Kroon et al.
is-by-synthesis Predictive Coders for High Quali
ty Speech Coding at Rates between 4.8 and 16kb / s, "
(IEEE JSAC, vol. 6, 2, 353-363, 1988) (Reference 7).
なお、デジタル信号処理の分野でよく知られているよ
うに、自己相関関数は周波数軸上でパワスペクトルに、
相互相関関数はクロスパワスペクトルに対応しているの
で、これらから計算することもできる。これらの計算法
については、Oppenheim氏らによる“Digital Signal Pr
ocessing"(Prentice−Hall,1975)と題した刊行物(文
献8)を参照できる。As is well known in the field of digital signal processing, the autocorrelation function is represented by a power spectrum on the frequency axis,
Since the cross-correlation function corresponds to the cross-power spectrum, it can be calculated from them. These calculations are described in “Digital Signal Pr
ocessing "(Prentice-Hall, 1975) (Reference 8).
以上述べたように、本発明によれば、音源信号を表す
コードブックを2段に分離して、第1のコードブック
は、予め音声信号に対して最適に学習して求めたコード
ブックと、音声信号以外の音声帯域信号、例えばデータ
モデム信号に対して最適に学習して構成したコードブッ
クとを有して、最良のコードワードを両者から選択し、
第2のコードブックは予め定められた統計的特性を有す
るコードブックを用い、さらに前記コードブックのゲイ
ンやピッチ予測による適応コードブックのゲインのう
ち、少なくとも一つを予め多量のトレーニング信号に対
して学習して構成したコードブックを用いてベクトル量
子化することにより、従来方式に比べてより少ない演算
量で、音声信号に対しても音声信号以外の音声帯域信
号、例えばデータモデム信号などに対しても、従来より
良好な特性を得ることができるという効果がある。ま
た、コードブックのゲインを最適化することによりさら
に特性が改善される。As described above, according to the present invention, the codebook representing the sound source signal is separated into two stages, and the first codebook is obtained by optimally learning the audio signal in advance, Having a codebook optimally learned and configured for voice band signals other than voice signals, for example, data modem signals, selecting the best codeword from both,
The second codebook uses a codebook having predetermined statistical characteristics, and at least one of a gain of the codebook and a gain of an adaptive codebook based on pitch prediction is applied to a large amount of training signals in advance. By performing vector quantization using a learned and configured codebook, the amount of computation is smaller than in the conventional method, and even for audio signals, audio band signals other than audio signals, such as data modem signals, etc. Also, there is an effect that better characteristics can be obtained as compared with the related art. Further, the characteristics are further improved by optimizing the gain of the codebook.
従って本発明によれば、従来方式に比べて、8〜4.8k
b/sのビットレートで、良好な音声帯域信号符号化方式
を得ることができるという大きな効果がある。Therefore, according to the present invention, 8 to 4.8 k
At a bit rate of b / s, there is a great effect that a good voice band signal coding scheme can be obtained.
【図面の簡単な説明】 第1図は第1の発明による音声帯域信号符号化方式の一
実施例が適用される音声帯域信号符号化装置の構成を示
すブロック図、 第2図は第1図のコードブック探索回路の構成を示すブ
ロック図、 第3図は第1図のゲイン量子化器の構成を示すブロック
図、 第4図は第2の発明による音声帯域信号符号化方式の一
実施例が適用される音声帯域信号符号化装置の構成を示
すブロック図である。 110……バッファメモリ 130……LPC分析回路 140……LSP量子化回路 150……サブフレーム分割回路 170……インパルス応答計算回路 190,205,255……減算器 200……重み付け回路 206……遅延回路 210……適応コードブック 220……ゲイン量子化器 225……量子化器 286……ゲイン量子化器 230……第1のコードブック探索回路 235,236……コードブック 250,281……合成フィルタ 241,242……乗算器 270……第2のコードブック探索回路 275……第2のコードブック 287……ゲインコードブック 410,500……相互相関関数計算回路 420,510……自己相関関数計算回路 430,520……判別回路 530……ゲイン復号回路BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing a configuration of an audio band signal encoding apparatus to which an embodiment of an audio band signal encoding system according to the first invention is applied, and FIG. 2 is FIG. FIG. 3 is a block diagram showing a configuration of the gain quantizer of FIG. 1, and FIG. 4 is an embodiment of a voice band signal encoding method according to the second invention. 1 is a block diagram illustrating a configuration of a speech band signal encoding device to which is applied. 110 buffer memory 130 LPC analysis circuit 140 LSP quantization circuit 150 subframe division circuit 170 impulse response calculation circuit 190, 205, 255 subtractor 200 weighting circuit 206 delay circuit 210 Adaptive codebook 220 Gain quantizer 225 Quantizer 286 Gain quantizer 230 First codebook search circuit 235,236 Codebook 250,281 Synthesis filter 241,242 Multiplier 270 ... Second codebook search circuit 275... Second codebook 287... Gain codebook 410,500... Cross-correlation function calculation circuit 420,510...
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04 Continuation of the front page (58) Field surveyed (Int. Cl. 7 , DB name) G10L 19/00-19/14 H03M 7/30 H04B 14/04
Claims (2)
られた時間長のフレームに分割し、 前記入力信号のスペクトル包絡を表すスペクトルパラメ
ータを求めて出力し、 前記フレームを予め定められた時間長の小区間に分割
し、 過去の音源信号をもとに再生信号が前記入力信号に近く
なるようにピッチパラメータを求めて前記入力信号に対
してピッチ予測を行い残差信号を求め、 音声信号あるいは前記音声信号以外の音声帯域信号をも
とに予め学習して構成した複数種類のコードベクトルが
格納された第1のコードブックから前記残差信号との歪
みを小さくするコードベクトルを選択し、 前記第1のコードブックから選択されたコードベクトル
を用いて第1の音源信号を生成し、この第1の音源信号
を基に合成された合成残差信号と前記残差信号との差信
号を生成し、 既知の統計的特性を有するかあるいは予め学習して構成
したコードベクトルが格納された第2のコードブックか
ら前記差信号との歪みを小さくするコードベクトルを選
択し、 前記第1のコードブックから選択されたコードベクトル
と前記第2のコードブックから選択されたコードベクト
ルとを用いて、前記入力信号の音源を表して出力する ことを特徴とする音声帯域信号符号化方法。1. An input discrete voice band signal is divided into frames of a predetermined time length, a spectrum parameter representing a spectrum envelope of the input signal is obtained and output, and the frame is output for a predetermined time. Divided into long sections, based on a past sound source signal, a pitch parameter is calculated so that a reproduced signal is close to the input signal, pitch prediction is performed on the input signal to obtain a residual signal, and a speech signal is obtained. Alternatively, a code vector that reduces distortion with the residual signal is selected from a first code book in which a plurality of types of code vectors configured by learning in advance based on audio band signals other than the audio signal are stored, A first sound source signal is generated using a code vector selected from the first code book, and a synthesized residual signal synthesized based on the first sound source signal and the first sound source signal are generated. A difference signal from the difference signal is generated, and a code vector having a known statistical characteristic or a code vector that reduces distortion from the difference signal is selected from a second code book in which a code vector configured by learning in advance is stored. And using a code vector selected from the first codebook and a code vector selected from the second codebook to represent and output a sound source of the input signal. Encoding method.
られた時間長のフレームに分割し、 前記入力信号のスペクトル包絡を表すスペクトルパラメ
ータを求めて出力し、 前記フレームを予め定められた時間長の小区間に分割
し、過去の音源信号をもとに再生信号が前記入力信号に
近くなるようにピッチパラメータを求めて前記入力信号
に対してピッチ予測を行い残差信号を求め、 音声信号あるいは前記音声信号以外の音声帯域信号をも
とに予め学習して構成した複数種類のコードベクトルが
格納された第1のコードブックから前記残差信号または
前記音声信号との歪みを小さくするコードベクトルを選
択し、 前記第1のコードブックから選択されたコードベクトル
を用いて第1の音源信号を生成し、この第1の音源信号
を基に合成された合成残差信号と前記残差信号との差信
号を生成し、 既知の統計的特性を有するかあるいは予め学習して構成
したコードベクトルが格納された第2のコードブックか
ら前記差信号との歪みを小さくするコードベクトルを選
択し、 予め構成した第3のコードブックを用いて前記ピッチパ
ラメータあるいは前記音源信号のゲインの少なくとも一
方を量子化して出力し、 前記第1のコードブックから選択されたコードベクトル
と前記第2のコードブックから選択されたコードベクト
ルと前記ゲインとの重み付き線形結合により、前記入力
信号の音源を表して出力する ことを特徴とする音声帯域信号符号化方法。2. An input discrete voice band signal is divided into frames of a predetermined time length, a spectrum parameter representing a spectrum envelope of the input signal is obtained and output, and the frame is output for a predetermined time. Divided into long sections, based on a past sound source signal, a pitch parameter is determined so that a reproduced signal is close to the input signal, pitch prediction is performed on the input signal to determine a residual signal, and a speech signal is obtained. Alternatively, a code vector for reducing distortion with the residual signal or the audio signal from a first code book in which a plurality of types of code vectors previously learned and configured based on audio band signals other than the audio signal are stored. And generates a first sound source signal using the code vector selected from the first codebook, and synthesizes the first sound source signal based on the first sound source signal. Generating a difference signal between the resultant residual signal and the residual signal; and distorting the differential signal from the second codebook having a known statistical characteristic or a code vector stored by learning in advance. Is selected, and at least one of the pitch parameter or the gain of the excitation signal is quantized and output using a third codebook configured in advance, and the code selected from the first codebook is output. A speech band signal encoding method characterized by expressing and outputting a sound source of the input signal by weighted linear combination of a vector, a code vector selected from the second codebook, and the gain.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10183490A JP3252285B2 (en) | 1990-04-19 | 1990-04-19 | Audio band signal encoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10183490A JP3252285B2 (en) | 1990-04-19 | 1990-04-19 | Audio band signal encoding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH041800A JPH041800A (en) | 1992-01-07 |
JP3252285B2 true JP3252285B2 (en) | 2002-02-04 |
Family
ID=14311116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10183490A Expired - Lifetime JP3252285B2 (en) | 1990-04-19 | 1990-04-19 | Audio band signal encoding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3252285B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5432883A (en) * | 1992-04-24 | 1995-07-11 | Olympus Optical Co., Ltd. | Voice coding apparatus with synthesized speech LPC code book |
JP3099852B2 (en) * | 1993-01-07 | 2000-10-16 | 日本電信電話株式会社 | Excitation signal gain quantization method |
CN113205820B (en) * | 2021-04-22 | 2022-05-13 | 武汉大学 | Method for generating voice coder for voice event detection |
-
1990
- 1990-04-19 JP JP10183490A patent/JP3252285B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH041800A (en) | 1992-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0443548B1 (en) | Speech coder | |
JP2940005B2 (en) | Audio coding device | |
JP2776050B2 (en) | Audio coding method | |
JP3114197B2 (en) | Voice parameter coding method | |
JP3143956B2 (en) | Voice parameter coding method | |
JP2626223B2 (en) | Audio coding device | |
US20040023677A1 (en) | Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound | |
JPH09127990A (en) | Voice coding method and device | |
JP2800618B2 (en) | Voice parameter coding method | |
JP3089769B2 (en) | Audio coding device | |
JPH07160297A (en) | Voice parameter encoding system | |
JP2002268686A (en) | Voice coder and voice decoder | |
JP3252285B2 (en) | Audio band signal encoding method | |
US6006177A (en) | Apparatus for transmitting synthesized speech with high quality at a low bit rate | |
JP3256215B2 (en) | Audio coding device | |
JP3194930B2 (en) | Audio coding device | |
JP3299099B2 (en) | Audio coding device | |
JP3249144B2 (en) | Audio coding device | |
JP3102017B2 (en) | Audio coding method | |
JP3092436B2 (en) | Audio coding device | |
JP2658794B2 (en) | Audio coding method | |
JP2002221998A (en) | Method, device and program for encoding and decoding acoustic parameter and voice | |
JPH07168596A (en) | Voice recognizing device | |
JP2808841B2 (en) | Audio coding method | |
JP3428595B2 (en) | Audio coding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071122 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081122 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081122 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091122 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091122 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101122 Year of fee payment: 9 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101122 Year of fee payment: 9 |