JP3144284B2 - Audio coding device - Google Patents

Audio coding device

Info

Publication number
JP3144284B2
JP3144284B2 JP30720595A JP30720595A JP3144284B2 JP 3144284 B2 JP3144284 B2 JP 3144284B2 JP 30720595 A JP30720595 A JP 30720595A JP 30720595 A JP30720595 A JP 30720595A JP 3144284 B2 JP3144284 B2 JP 3144284B2
Authority
JP
Japan
Prior art keywords
sound source
circuit
signal
speech
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30720595A
Other languages
Japanese (ja)
Other versions
JPH09146599A (en
Inventor
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP30720595A priority Critical patent/JP3144284B2/en
Publication of JPH09146599A publication Critical patent/JPH09146599A/en
Application granted granted Critical
Publication of JP3144284B2 publication Critical patent/JP3144284B2/en
Priority to US09/948,481 priority patent/US6751585B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To suppress deterioration of sound quality by using a comparatively small amount of computation even when the bit rate is low by providing a code book which quantizes one of the parameters of amplitude and position of non-zero pulses in a lump and determining the other parameter while searching this. SOLUTION: Using an amplitude code book 13 which is used to quantize one of the amplitude parameters of pulses constituting a sound source in a lump, a sound source quantizing circuit 12 determines and quantizes the other parameter of plural non-zero pulses. Or, the circuit 12 calculates plural sets of the positions, searches the code book for the plural sets of positions of non- zero pulses and selects the combination of the set, which has the position making the value of predetermined formula maximum or minimum, and the code vector to quantize the sound source.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は音声符号化装置に関
し、特に音声信号を低いビットレートで高品質に符号化
するための音声符号化装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech coding apparatus, and more particularly to a speech coding apparatus for coding a speech signal at a low bit rate with high quality.

【0002】[0002]

【従来の技術】音声符号化装置は、音声復号化装置と対
向して使用され、音声符号化装置で符号化した音声を音
声復号化装置が復号するものである。ここで、音声信号
を高能率に符号化する方法としては、例えば、エム・シ
ュレーダー(M.Schroeder )とビー・アタル(B.Atal)
等がアイイーイーイー・プロシーディングス(IEEE Pro
c.)ICASSP-85,1985年、937〜940頁にコード・エ
キサイテド・リニア・プリディクション:ハイ・クオリ
ティ・スピーチ・アット・ベリー・ロウ・ビット・レイ
ツ(Code-excited linear prediction: High quality s
peech at very lowbit rates )と題して発表した論文
(文献1)や、クレイジン(Kleijn)等によるアイイー
イーイー・プロシーディングス(IEEE Proc.)ICASSP-88,
1988年、155〜158頁にインプルーブド・スピーチ
・クオリティ・アンド・エフィシェント・ベクトル・ク
オンタイゼイション・イン・エスイーエルピー(Improve
d speech quality and efficient vector quantization
in SELP) と題して発表した論文(文献2)等に記載さ
れているCELP(Code Excited Linear Prediction Co
ding) が知られている。この方法では、送信側では、フ
レーム毎(例えば20ms)に音声信号から線形予測(LP
C)分析を用いて、音声信号のスペクトル特性を表すス
ペクトルパラメータを抽出し、フレームをさらに複数の
サブフレーム(例えば5ms)に分割し、サブフレーム毎に
過去の音源信号をもとに適応コードブックにおけるパラ
メータ(ピッチ周期に対応する遅延パラメータとゲイン
パラメータ)を抽出し、適応コードブックにより該当の
サブフレームの音声信号をピッチ予測し、ピッチ予測し
て求めた残差信号に対して、予め定められた種類の雑音
信号からなる音源コードブック(ベクトル量子化コード
ブック)から最適音源コードベクトルを選択し、最適な
ゲインを計算することにより、音源信号を量子化する。
音源コードベクトルの選択の仕方は、選択した雑音信号
により合成した信号と、前述の残差信号との誤差電力を
最小化するように行う。そして選択されたコードベクト
ルの種類を表すインデックスとゲインならびに、スペク
トルパラメータと適応コードブックのパラメータとをマ
ルチプレクサ部により組み合わせて伝送する。受信側の
説明は省略する。
2. Description of the Related Art A speech encoding device is used opposite to a speech decoding device, and a speech decoding device decodes speech encoded by the speech encoding device. Here, as a method of encoding a speech signal with high efficiency, for example, M. Schroeder and B. Atal
Etc. are IEEE Proceedings (IEEE Pro
c.) ICASSP-85, Code Excited Linear Prediction: High Quality Speech at Very Low Bit Rates, pp. 937-940, 1985.
Peech at very lowbit rates) (Reference 1), and Claizin (Kleijn) et al., IEEE Proc. IACSSP-88,
Improve Speech Quality and Efficient Vector Quantization in SLP, 1988, pp. 155-158.
d speech quality and efficient vector quantization
in CELP (Code Excited Linear Prediction Co.)
ding) is known. In this method, the transmitting side performs linear prediction (LP) from a speech signal every frame (for example, 20 ms).
C) Using analysis, extract a spectral parameter representing a spectral characteristic of the audio signal, further divide the frame into a plurality of subframes (for example, 5 ms), and apply an adaptive codebook to each subframe based on a past sound source signal. (A delay parameter and a gain parameter corresponding to a pitch period) are extracted, a speech signal of a corresponding subframe is pitch-predicted by an adaptive codebook, and a residual signal obtained by pitch prediction is determined in advance. The excitation signal is quantized by selecting an optimal excitation code vector from an excitation codebook (vector quantization codebook) composed of various types of noise signals and calculating an optimal gain.
The excitation code vector is selected in such a manner as to minimize the error power between the signal synthesized from the selected noise signal and the above-mentioned residual signal. Then, the index and gain indicating the type of the selected code vector, the spectrum parameter and the parameter of the adaptive codebook are combined and transmitted by the multiplexer unit. Description on the receiving side is omitted.

【0003】[0003]

【発明が解決しようとする課題】上述した従来の音声符
号化装置は、音源コードブックから最適な音源コードベ
クトルを選択するのに多大な演算量を必要としていた。
これは、文献1および2の方法では、音源コードベクト
ルを選択するのに、各コードベクトルに対して一旦フィ
ルタリングもしくは畳み込み演算を行い、この演算をコ
ードブックに格納しているコードベクトルの個数だけ繰
り返すことに起因している。例えば、コードブックのビ
ット数がBビットで、次元数がNのときは、フィルタリ
ングあるいは畳み込み演算のときのフィルタあるいはイ
ンパルス応答長をKとすると、演算量は1 秒当たり、N
×K×2B ×8000/Nだけ必要となる。一例とし
て、B=10,N=40,K=10とすると、1秒当た
り81,920,000回の演算が必要となり、極めて
膨大で経済的に耐えられないという問題点がある。
The above-described conventional speech coding apparatus requires a large amount of calculation to select an optimal excitation code vector from an excitation codebook.
According to the methods of Documents 1 and 2, in order to select a sound source code vector, filtering or convolution operation is once performed on each code vector, and this operation is repeated by the number of code vectors stored in the code book. It is due to For example, when the number of bits in the codebook is B and the number of dimensions is N, the amount of operation is N per second, assuming that the filter or impulse response length in the filtering or convolution operation is K.
× K × 2 B × 8000 / N is required. As an example, if B = 10, N = 40 and K = 10, 81,920,000 operations are required per second, which is extremely large and economically infeasible.

【0004】ここで、音源コードブック探索に必要な演
算量を低減する方法について考察するとこれまでに、種
々のものが提案されている。
Here, various methods have been proposed so far when considering a method of reducing the amount of calculation required for the sound source codebook search.

【0005】例えば、ACELP(Argebraic Code Exci
ted Linear Prediction)方式が提案されている。これの
具体的な方法としては、シー・ラフラム(C.Laflamme)等
がアイイーイーイー・プロシーディングス(IEEE Proc.)
ICASSP-91,1991年、13〜16頁に16・ケービーピー
エス・ワイドバンド・スピーチ・コーディング・テクニ
ック・ベースド・オン・アルジブレイク・シーイーエル
ピー(16 kbps wideband speech codingtechnique base
d on algebraic CELP )と題して発表した論文(文献
3)等を参照することができる。文献3の方法によれ
ば、音源信号を複数個のパルスで表し、各パルスの位置
をあらかじめ定められたビット数で表し伝送する。ここ
で、各パルスの振幅は+1.0もしくは-1.0に限定されてい
るため、パルス探索の演算量を大幅に低減化できる。
For example, ACELP (Argebraic Code Exci
ted Linear Prediction) has been proposed. As a concrete method of this, C. Laflamme (C. Laflamme) etc.
ICASSP-91, pp. 13-16, 16K BB Wideband Speech Coding Technique Based on Algibreak CLP (16 kbps wideband speech codingtechnique base)
d on algebraic CELP) (Reference 3). According to the method of Document 3, the sound source signal is represented by a plurality of pulses, and the position of each pulse is represented by a predetermined number of bits and transmitted. Here, since the amplitude of each pulse is limited to +1.0 or -1.0, it is possible to greatly reduce the calculation amount of the pulse search.

【0006】文献3の方法では、演算量を大幅に低減化
することは可能となるが、音質は充分ではないという問
題点がある。この理由としては、各パルスが正負の極性
のみしか有しておらず、絶対値振幅はパルスの位置によ
らず常に1.0 であるため、振幅を極めて粗く量子化した
ことになり、このために音質が劣化していた。
[0006] The method disclosed in Reference 3 can greatly reduce the amount of computation, but has the problem that the sound quality is not sufficient. The reason is that each pulse has only positive and negative polarities and the absolute value amplitude is always 1.0 regardless of the position of the pulse. Had deteriorated.

【0007】本発明の目的は、ビットレートが低い場合
にも、比較的少ない演算量でも音質の劣化を抑えること
ができる音声符号化装置を提供することにある。
An object of the present invention is to provide a speech coding apparatus capable of suppressing deterioration of sound quality even with a low bit rate even with a relatively small amount of calculation.

【0008】[0008]

【課題を解決するための手段】本発明の音声符号化装置
は、入力した音声信号からスペクトルパラメータを求め
て量子化するスペクトルパラメータ計算部と、前記スペ
クトルパラメータを用いて前記音声信号の音源信号を量
子化して出力する音源量子化部とを有する音声符号化装
置において、音源を複数個の非零のパルスで構成し、前
記非零のパルスの振幅もしくは位置のパラメータの一方
をまとめて量子化するコードブックを有し、前記音源量
子化部が前記コードブックを探索しながら、前記コード
ブックで表されていない位置または振幅のいずれかのパ
ラメータを求め前記非零のパルスを量子化する機能をを
有する構成である。
According to the present invention, there is provided a speech coding apparatus comprising: a spectrum parameter calculating section for obtaining a spectrum parameter from an input speech signal and quantizing the spectrum parameter; and using the spectrum parameter to generate a sound source signal of the speech signal. In a speech coding apparatus having a sound source quantization unit for quantizing and outputting, a sound source is constituted by a plurality of non-zero pulses, and one of parameters of the amplitude or position of the non-zero pulse is quantized collectively. has a codebook, while the sound source quantization section searches the codebook, the code
Any position or amplitude not represented in the book
It has a function of obtaining parameters and quantizing the non-zero pulse.

【0009】本発明の音声符号化装置は、入力した音声
信号からスペクトルパラメータを求めて量子化するスペ
クトルパラメータ計算部と、前記スペクトルパラメータ
を用いて前記音声信号の音源信号を量子化して出力する
音源量子化部とを有する音声符号化装置において、音源
を複数個の非零のパルスで構成し、前記非零のパルスの
振幅をまとめて量子化するコードブックを有し、前記音
源量子化部が前記非零のパルスの位置を複数セット分計
算し、前記複数セット分の位置に対し前記コードブック
を探索し、予め与えられた式の値を最大及び最小のいず
れか一方とする位置をもつセットと、パルスの振幅をま
とめて量子化するコードブックのコードベクトルとの組
み合わせを選択して、音源信号を量子化する機能を有す
る構成である。
A speech encoding apparatus according to the present invention comprises a spectrum parameter calculation unit for obtaining and quantizing a spectrum parameter from an input speech signal, and a sound source for quantizing and outputting a speech signal of the speech signal using the spectrum parameter. In a speech encoding device having a quantization unit, a sound source is configured by a plurality of non-zero pulses, and a codebook is provided for quantizing the amplitude of the non-zero pulses collectively. The position of the non-zero pulse is calculated for a plurality of sets, the code book is searched for the positions of the plurality of sets, and a set having a position where the value of a given equation is one of a maximum and a minimum is set. And the pulse amplitude
This is a configuration having a function of selecting a combination with a code vector of a code book to be quantized and quantizing a sound source signal.

【0010】本発明の音声符号化装置は、入力した音声
信号から一定時間ごとにスペクトルパラメータを求めて
量子化するスペクトルパラメータ計算部と、前記スペク
トルパラメータを用いて前記音声信号の音源信号を量子
化して出力する音源量子化部とを有する音声符号化装置
において、音源を複数個の非零のパルスで構成し、前記
非零のパルスの振幅をまとめて量子化するコードブック
と、前記音声信号から特徴量を抽出してモードを判別す
るモード判別回路とを有し、前記モード判別回路の判別
結果が予め定められたモードの場合に前記非零のパルス
の位置を複数セット分計算し、前記複数セットのそれぞ
れの位置に対し前記コードブックを探索し、予め定めら
れた式の値を最大及び最小のいずれか一方とする位置を
もつセットと、パルスの振幅をまとめて量子化するコー
ドブックのコードベクトルとの組合わせを選択すること
により音源信号を量子化する構成である。
A speech coding apparatus according to the present invention comprises a spectrum parameter calculation unit for obtaining and quantizing a spectrum parameter at predetermined time intervals from an input speech signal, and quantizing a sound source signal of the speech signal using the spectrum parameter. A sound source comprising a plurality of non-zero pulses, a code book for quantizing the amplitudes of the non-zero pulses together, and A mode discrimination circuit that discriminates a mode by extracting a feature amount, and calculates a position of the non-zero pulse for a plurality of sets when a discrimination result of the mode discrimination circuit is a predetermined mode. the codebook searches for each of the positions of the set, the set having a position to either one maximum and minimum values of a predetermined equation, Pas Code to be quantized together the amplitude of the scan
In this configuration, the sound source signal is quantized by selecting a combination with the code vector of the book .

【0011】本発明の音声符号化装置は、入力した音声
信号から一定時間ごとにスペクトルパラメータを求めて
量子化するスペクトルパラメータ計算部と、前記スペク
トルパラメータを用いて前記音声信号の音源信号を量子
化して出力する音源量子化部とを有する音声符号化装置
において、音源が複数個の非零のパルスから構成され、
前記パルスの振幅をまとめて量子化するコードブック
と、前記音声信号から特徴量を抽出してモードを判別す
るモード判別回路とを有し、あらかじめ前記モード判別
回路の判別結果が予め定められたモードの場合に前記パ
ルスの位置を少なくとも1セット分計算し、予め与えら
れた式の値を最大および最小のいずれか一方とする位置
を持つセットの位置に対し前記コードブックを探索し、
良好な位置のセットとコードベクトルとの組合せを選択
することにより音源信号を量子化し、あらかじめ定めら
れた他のモードでは、音源を複数個のパルスと音源コー
ドブックから選択した音源コードベクトルの線形結合で
表し、前記パルスと音源コードベクトルを探索して量子
化する構成である。
A speech coding apparatus according to the present invention includes a spectrum parameter calculating section for obtaining and quantizing a spectrum parameter at predetermined time intervals from an input speech signal, and quantizing a sound source signal of the speech signal using the spectrum parameter. And a sound source quantization unit having a sound source quantization unit for outputting the sound source.
A code book that collectively quantizes the amplitude of the pulse, and a mode discriminating circuit that discriminates a mode by extracting a feature amount from the audio signal, wherein the mode discriminating result of the mode discriminating circuit is a predetermined mode In the case of, the position of the pulse is calculated for at least one set, the code book is searched for a position of a set having a position where the value of a given equation is one of a maximum and a minimum,
The source signal is quantized by selecting a combination of a good position set and a code vector, and in another predetermined mode, the source is a linear combination of a plurality of pulses and a source code vector selected from a source code book. In this configuration, the pulse and the excitation code vector are searched and quantized.

【0012】本発明の音声符号化装置は、入力した音声
信号を予め定める時間長のフレームに分割するフレーム
分割回路と、前記フレームの音声信号をフレームよりも
短い時間長のサブフレームに分割するサブフレーム分割
回路と、前記フレーム分割回路の出力する一連のフレー
ムの音声信号を受信し少なくとも1つのサブフレームの
音声信号に対して前記サブフレームの時間長よりも長い
窓をかけて音声信号を切り出してスペクトルパラメータ
を予め定められた次数まで計算するスペクトルパラメー
タ計算回路と、線スペクトル対パラメータコードブック
を用いて前記スペクトルパラメータ計算回路の計算した
予め定めるサブフレームで量子化した線スペクトル対パ
ラメータをベクトル量子化するスペクトルパラメータ量
子化回路と、前記スペクトルパラメータ計算回路の計算
した複数のサブフレームの線形予測係数を受け各サブフ
レームの音声信号に対して聴感重み付けを行い聴感重み
付け信号を出力する聴感重み付け回路と、前記スペクト
ルパラメータ計算回路の計算した複数のサブフレームの
線形予測係数と前記スペクトルパラメータ量子化回路が
復元した線形予測係数とをサブフレームごとに入力し応
答信号を1サブフレーム分計算し減算器に出力する応答
信号計算回路と、前記スペクトルパラメータ量子化回路
が復元した線形予測係数を受け、聴感重み付けフィルタ
のインパルス応答を予め定める点数計算するインパルス
応答計算回路と、出力側から帰還する過去の音源信号と
前記減算器の出力信号と前記聴感重み付けフィルタのイ
ンパルス応答とを入力しピッチに対応する遅延を求め遅
延を表すインテックスを出力する適応コードブック回路
と、音源を構成するパルスの振幅および位置のパラメー
タの一方をまとめて量子化するコードブックを用いて複
数個の非零のパルスの他方のパラメータを求め量子化す
る音源量子化回路と、ゲインコードブックを探索し、選
択された振幅コードベクトルと位置に対して、与えられ
た式を最大化あるいは最小化するようなゲインコードベ
クトルを選択し、この選択したゲインコードベクトルを
表すインデックスをマルチプレクサに出力するゲイン量
子化回路と、前記ゲイン量子化回路の出力を入力しイン
デックスからこれに対応するコードベクトルを読みだし
駆動音源信号を求める重み付け信号計算回路とを有する
構成である。
A speech encoding apparatus according to the present invention comprises a frame dividing circuit for dividing an inputted speech signal into frames of a predetermined time length, and a sub-segment for dividing the speech signal of the frame into sub-frames having a shorter time length than the frame. A frame dividing circuit, receiving a sound signal of a series of frames output from the frame dividing circuit, cutting out the sound signal by applying a window longer than the time length of the subframe to the sound signal of at least one subframe; A spectral parameter calculating circuit for calculating spectral parameters up to a predetermined order, and vector quantization of a line spectrum pair parameter quantized by a predetermined subframe calculated by the spectrum parameter calculating circuit using a line spectrum pair parameter codebook. A spectral parameter quantization circuit, A perceptual weighting circuit that receives the linear prediction coefficients of the plurality of subframes calculated by the spectral parameter calculation circuit, performs perceptual weighting on the audio signal of each subframe, and outputs a perceptual weighting signal; A response signal calculation circuit for inputting the linear prediction coefficient of the subframe and the linear prediction coefficient restored by the spectrum parameter quantization circuit for each subframe, calculating a response signal for one subframe, and outputting the response signal to a subtractor; An impulse response calculation circuit that receives the linear prediction coefficient restored by the parameter quantization circuit and calculates a predetermined score for the impulse response of the auditory weighting filter; a past sound source signal that is fed back from the output side; Input the impulse response of the weighting filter and The other of a plurality of non-zero pulses using an adaptive codebook circuit that calculates the delay and outputs an index representing the delay, and a codebook that collectively quantizes one of the parameters of the amplitude and position of the pulse constituting the sound source Search and select a sound source quantization circuit and gain codebook for
Given the selected amplitude code vector and location,
Gain code vector that maximizes or minimizes the
Select vector, and the gain quantization circuit to output an index representing the selected gain code vector to the multiplexer, the input excitation signal read a code vector corresponding to the index output of the gain quantization circuit And a weighting signal calculation circuit to be obtained.

【0013】本発明の音声符号化装置は、音源量子化部
が、少なくとも一つのパルスのとりうる位置をあらかじ
め限定してしてもよい。
[0013] In the speech coding apparatus according to the present invention, the sound source quantizing section may preliminarily limit a position where at least one pulse can be taken.

【0014】本発明の音声符号化装置は、音源量子化部
が、コードブックからあらかじめ複数個のコードベクト
ルを予備選択した後に、前記予備選択したコードベクト
ルを探索しながら他方のパラメータを求め量子化しても
よい。
In the speech coding apparatus according to the present invention, the excitation quantization section preliminarily selects a plurality of code vectors from the codebook, and then searches for the preselected code vector to obtain the other parameter and quantizes the other parameter. You may.

【0015】[作用]第1の発明では、音源量子化部に
おいて、複数個の非零のパルスに対して、振幅パラメー
タと位置パラメータのいずれか一方をまとめて量子化す
るコードブックを有する。以下では、コードブックとし
て、パルスの振幅パラメータを複数個まとめて量子化す
るコードブックを有するものとして説明する。
[Operation] In the first aspect of the present invention, the sound source quantization unit has a code book for quantizing one of the amplitude parameter and the position parameter collectively for a plurality of non-zero pulses. In the following, a description will be given assuming that the code book includes a code book for quantizing a plurality of pulse amplitude parameters collectively.

【0016】一定時間ごとに、音源として、M個のパル
スを立てる。時間長はNサンプルとする。i番目のパル
スの振幅,位置をそれぞれ、gi 、mi とする。このと
き、音源信号は下式のように表せる。
At regular intervals, M pulses are generated as a sound source. The time length is N samples. The amplitude of the i th pulse, position, respectively, g i, and m i. At this time, the sound source signal can be expressed by the following equation.

【0017】 [0017]

【0018】コードブックに格納されているk番目の振
幅コードベクトルをg'ikとし、振幅を量子化するとすれ
ば、音源は
Assuming that the k-th amplitude code vector stored in the codebook is g'ik and the amplitude is quantized, the sound source is

【0019】 [0019]

【0020】と表せる。ここで、Bは、振幅を量子化す
るコードブックのビット数である。このとき、式(2) を
用いて再生した信号と入力音声信号との歪みは
It can be expressed as Here, B is the number of bits of the codebook for quantizing the amplitude. At this time, the distortion between the signal reproduced using equation (2) and the input audio signal is

【0021】 [0021]

【0022】ここで、xw(n) 、hw(n) はそれぞれ、後述
の実施例で述べる聴感重み付け音声信号、聴感重み付け
インパルス応答である。
Here, x w (n) and h w (n) are a perceptually weighted speech signal and a perceptually weighted impulse response, respectively, which will be described in the following embodiments.

【0023】式(3) を最小化するには、下式を最大化す
るk番目のコードベクトルと位置miの組合せを求めれば
良い。
[0023] To minimize equation (3) may be determined to k-th code vector and a combination of the position m i that maximizes the following equation.

【0024】 [0024]

【0025】ここで、swk(mi) は下式で表せる。Here, s wk (m i ) can be expressed by the following equation.

【0026】 [0026]

【0027】従って、各振幅コードベクトルに対して、
位置を計算し、式(4) を最大化する組合せを求める。
Therefore, for each amplitude code vector,
Calculate the position and find the combination that maximizes equation (4).

【0028】第2の発明では、第1の発明において、少
なくとも一つのパルスのとりうる位置が予め設定されて
いる。限定の方法は種々考えられるが、例えば、前述の
文献3のACELPにおける方法を用いることができ
る。一例として、N=40, M=5 とすると、各パルスの位置
は表1のように限定できる。
According to a second aspect, in the first aspect, a position where at least one pulse can be set is set in advance. Although various limiting methods are conceivable, for example, the method in ACELP of the above-mentioned Document 3 can be used. As an example, if N = 40 and M = 5, the position of each pulse can be limited as shown in Table 1.

【0029】[0029]

【表1】 [Table 1]

【0030】これによれば、各パルスの位置は8種類に
限定されているので、位置の組合せの個数が大幅に低減
化され、第1の発明に比べ、式(4) を計算する演算量を
低減化できる。
According to this, since the positions of each pulse are limited to eight types, the number of combinations of positions is greatly reduced, and the amount of calculation for calculating the equation (4) is smaller than that of the first invention. Can be reduced.

【0031】第3の発明では、コードブックに含まれる
2B 種類のすべてのコードベクトルに対して式(4) を計
算するのではなく、あらかじめコードベクトルを複数個
予備選択しておき、予備選択したコードベクトルに対し
てのみ式(4) を計算することにより、演算量を低減化す
る。
In the third invention, instead of calculating Equation (4) for all 2B types of code vectors included in the code book, a plurality of code vectors are preliminarily selected and the preselected code vectors are preliminarily selected. By calculating equation (4) only for the code vector, the amount of calculation is reduced.

【0032】第4の発明では、コードブックとして、M
個のパルスの振幅をまとめて量子化するコードブックを
有する。さらに、M個のパルスの位置を複数セット分計
算し、複数セットの位置の各々について、コードブック
のコードベクトルに対して式(4) を計算し、式(4) を最
大化する位置とコードベクトルの組合せを選択する。
In the fourth invention, M is used as a code book.
It has a codebook that quantizes the amplitudes of the pulses collectively. Further, the positions of the M pulses are calculated for a plurality of sets, and for each of the plurality of sets of positions, Equation (4) is calculated for the code vector in the codebook, and the position and code for maximizing Equation (4) are calculated. Select a vector combination.

【0033】第5の発明では、第4の発明において、少
なくとも一つのパルスのとりうる位置が、第2の発明と
同様に、あらかじめ限定されている。
According to a fifth aspect, in the fourth aspect, the positions where at least one pulse can be taken are limited in advance, as in the second aspect.

【0034】第6の発明では、音声信号から特徴量を抽
出してモードを判別し、予め定められたモードの場合
に、第4の発明と同一の処理を行う。
In the sixth aspect, the mode is discriminated by extracting the characteristic amount from the audio signal, and in the case of a predetermined mode, the same processing as in the fourth aspect is performed.

【0035】第7の発明では、第6の発明において、少
なくとも一つのパルスのとりうる位置が、第2の発明と
同様に、あらかじめ限定されている。
According to a seventh aspect, in the sixth aspect, at least one possible pulse position is limited in advance, as in the second aspect.

【0036】第8の発明では、モードにより音源信号を
切替える。即ち、予め定められたモードでは、第6の発
明と同様に、音源を複数個のパルスで表し、予め定めら
れた他のモードでは、音源信号を複数個のパルスと音源
コードブックから選択した音源コードベクトルとの線形
結合で表す。例えば下式のように表せる。
In the eighth invention, the sound source signal is switched according to the mode. That is, in the predetermined mode, the sound source is represented by a plurality of pulses as in the sixth invention, and in the other predetermined modes, the sound source signal is expressed by the plurality of pulses and the sound source selected from the sound source codebook. Expressed as a linear combination with the code vector. For example, it can be expressed as the following equation.

【0037】 [0037]

【0038】ここで、cj(n) は、音源コードブックに格
納されているj番目の音源コードベクトルである。ま
た、G1 ,G2 はそのぞれのゲインである。Rは音源コ
ードブックのビット数である。
Here, c j (n) is the j-th sound source code vector stored in the sound source code book. G 1 and G 2 are the respective gains. R is the number of bits in the sound source codebook.

【0039】また、あらかじめ定められたモードでは、
第6の発明と同一の処理を行う。
Also, in the predetermined mode,
The same processing as in the sixth invention is performed.

【0040】第9の発明では、第8の発明において、少
なくとも一つのパルスのとりうる位置が、第2の発明と
同様に、あらかじめ限定されている。
According to a ninth aspect, in the eighth aspect, the position where at least one pulse can be taken is limited in advance, as in the second aspect.

【0041】[0041]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
Next, embodiments of the present invention will be described with reference to the drawings.

【0042】図1は本発明の第1の実施の形態を示すブ
ロック図である。
FIG. 1 is a block diagram showing a first embodiment of the present invention.

【0043】本発明の第1の実施の形態の音声符号化装
置1は、入力した音声信号を予め定める時間長のフレー
ムに分割するフレーム分割回路2と、フレームの音声信
号をフレームよりも短い時間長のサブフレームに分割す
るサブフレーム分割回路3と、フレーム分割回路2の出
力する一連のフレームの音声信号を受信し少なくとも1
つのサブフレームの音声信号に対してサブフレームの時
間長よりも長い窓をかけて音声信号を切り出してスペク
トルパラメータを予め定められた次数まで計算するスペ
クトルパラメータ計算回路4と、線スペクトル対パラメ
ータコードブック(以下LSPコードブックと記す)6
を用いてスペクトルパラメータ計算回路4の計算した予
め定めるサブフレームで量子化したLSPパラメータを
ベクトル量子化するスペクトルパラメータ量子化回路5
と、スペクトルパラメータ計算回路4の計算した複数の
サブフレームの線形予測係数を受け各サブフレームの音
声信号に対して聴感重み付けを行い聴感重み付け信号を
出力する聴感重み付け回路7と、スペクトルパラメータ
計算回路4の計算した複数のサブフレームの線形予測係
数とスペクトルパラメータ量子化回路5が復元した線形
予測係数とを、サブフレームごとに入力し、応答信号を
1サブフレーム分計算し減算器8に出力する応答信号計
算回路9と、スペクトルパラメータ量子化回路5が復元
した線形予測係数を受け、聴感重み付けフィルタのイン
パルス応答を予め定める点数計算するインパルス応答計
算回路10と、出力側から帰還する過去の音源信号と減
算器8の出力信号と聴感重み付けフィルタのインパルス
応答とを入力しピッチに対応する遅延を求め遅延を表す
インテックスを出力する適応コードブック回路11と、
音源を構成するパルスの振幅のパラメータの一方をまと
めて量子化するための振幅コードブック13を用いて複
数個の非零のパルスの他方のパラメータを求め量子化す
る音源量子化回路12と、ゲインコードブック15から
ゲインコードベクトルを読みだし振幅コードベクトルと
位置とから1つのゲインコードベクトルを選択し、この
選択したゲインコードベクトルを表すインデックスをマ
ルチプレクサ16に出力するゲイン量子化回路14と、
ゲイン量子化回路14の出力を入力しインデックスから
これに対応するコードベクトルを読みだし駆動音源信号
を求める重み付け信号計算回路17とからなる。
The speech coding apparatus 1 according to the first embodiment of the present invention comprises a frame dividing circuit 2 for dividing an inputted speech signal into frames of a predetermined time length, and a speech signal having a shorter time than the frame. A sub-frame division circuit 3 for dividing into a long sub-frame, and receiving at least one audio signal of a series of frames output from the frame division circuit 2
A spectrum parameter calculation circuit 4 that cuts out the audio signal by applying a window longer than the subframe time length to the audio signal of one subframe and calculates spectral parameters to a predetermined order, and a line spectrum versus parameter codebook (Hereinafter referred to as LSP codebook) 6
A parameter quantization circuit 5 for vector-quantizing an LSP parameter quantized in a predetermined subframe calculated by the spectrum parameter calculation circuit 4 using
A perceptual weighting circuit 7 that receives the linear prediction coefficients of a plurality of subframes calculated by the spectrum parameter calculation circuit 4 and weights the perceptual weight of the audio signal of each subframe and outputs a perceptual weighting signal; Are input for each sub-frame, the linear prediction coefficients restored by the spectral parameter quantization circuit 5 are calculated for each sub-frame, the response signal is calculated for one sub-frame, and output to the subtractor 8 A signal calculation circuit 9, an impulse response calculation circuit 10 that receives the linear prediction coefficient restored by the spectrum parameter quantization circuit 5 and calculates a predetermined score of an impulse response of the perceptual weighting filter; The output signal of the subtractor 8 and the impulse response of the perceptual weighting filter are input and An adaptive codebook circuit 11 for outputting a Intex representing a delay determined delay corresponding to the switch,
A sound source quantization circuit 12 for obtaining and quantizing the other parameters of a plurality of non-zero pulses using an amplitude codebook 13 for quantizing one of the amplitude parameters of the pulses constituting the sound source collectively; A gain quantization circuit 14 that reads a gain code vector from the code book 15 and selects one gain code vector from the amplitude code vector and the position, and outputs an index representing the selected gain code vector to the multiplexer 16;
The output of the gain quantization circuit 14 is inputted, a code vector corresponding to the index is read out from the index, and a weighting signal calculation circuit 17 for obtaining a drive excitation signal.

【0044】次に本装置の動作について説明する。Next, the operation of the present apparatus will be described.

【0045】まず、入力端子から音声信号を入力し、フ
レーム分割回路2では音声信号をフレーム(例えば 10m
s)ごとに分割し、サブフレーム分割回路3では、フレ
ームの音声信号をフレームよりも短いサブフレーム(例
えば 2.5ms)に分割する。スペクトルパラメータ計算回
路4では、少なくとも一つのサブフレームの音声信号に
対して、サブフレーム長よりも長い窓(例えば 24ms )
をかけて音声を切り出してスペクトルパラメータをあら
かじめ定められた次数(例えば P=10 次)計算する。こ
こでスペクトルパラメータの計算には、周知のLPC分
析や、バーグ(Burg)分析等を用いることができる。ここ
では、バーグ(Burg)分析を用いることとする。バーグ(B
urg)分析の詳細については、中溝著による”信号解析と
システム同定”と題した単行本(コロナ社1988年刊)の
82〜87頁(文献5)等に記載されているので説明は省略
する。
First, an audio signal is input from an input terminal, and the frame dividing circuit 2 converts the audio signal into a frame (for example, 10 m).
s), and the subframe division circuit 3 divides the audio signal of the frame into subframes (for example, 2.5 ms) shorter than the frame. In the spectrum parameter calculation circuit 4, a window (for example, 24 ms) longer than the subframe length is provided for at least one subframe audio signal.
, The speech is cut out, and the spectral parameters are calculated in a predetermined order (for example, P = 10th order). Here, a well-known LPC analysis, a Burg analysis, or the like can be used for calculating the spectrum parameters. Here, Burg analysis is used. Berg (B
urg) For details of the analysis, see the book “Corona Analysis and System Identification” written by Nakamizo (Corona Publishing Co., 1988).
The description is omitted since it is described on pages 82 to 87 (Document 5) and the like.

【0046】さらにスペクトルパラメータ計算回路4で
は、バーグ(Burg)法により計算された線形予測係数α
i(i=1,…,10)量子化や補間に適したLSPパラメータに
変換する。ここで、線形予測係数からLSPへの変換
は、菅村他による”線スペクトル対(LSP)音声分析
合成方式による音声情報圧縮”と題した論文(電子通信
学会論文誌、J64-A、pp.599-606、1981年)(文献5)
を参照することができる。例えば、第2,4サブフレー
ムでバーグ(Burg)法により求めた線形予測係数を、LS
Pパラメータに変換し、第1,3サブフレームのLSP
を直線補間により求めて、第1,3サブフレームのLS
Pを逆変換して線形予測係数に戻し、第1〜4サブフレ
ームの線形予測係数αil(i=1, …,10,l=1,…,5) を聴感
重み付け回路7に出力する。また、第4サブレームのL
SPをスペクトルパラメータ量子化回路5に出力する。
Further, in the spectrum parameter calculation circuit 4, the linear prediction coefficient α calculated by the Burg method
i (i = 1,..., 10) is converted to LSP parameters suitable for quantization and interpolation. Here, the conversion from the linear prediction coefficient to the LSP is performed by Sugamura et al. In a paper entitled "Speech Information Compression by Line Spectrum Pair (LSP) Speech Analysis / Synthesis Method" (Transactions of the Institute of Electronics, Information and Communication Engineers, J64-A, pp.599). -606, 1981) (Reference 5)
Can be referred to. For example, the linear prediction coefficient obtained by the Burg method in the second and fourth subframes is represented by LS
Convert to P parameter, LSP of 1st and 3rd subframe
Is obtained by linear interpolation, and the LS of the first and third sub-frames is calculated.
P is inversely transformed back to a linear prediction coefficient, and the linear prediction coefficients α il (i = 1,..., 10, l = 1,..., 5) of the first to fourth subframes are output to the audibility weighting circuit 7. In addition, L of the fourth sub-frame
The SP is output to the spectrum parameter quantization circuit 5.

【0047】スペクルパラメータ量子化回路5では、L
SPレコードブック6を用いてあらかじめ定められたサ
ブフレームのLSPパラメータを効率的に量子化し、下
式の歪みを最小化する量子化値を出力する。
In the speckle parameter quantization circuit 5, L
The LSP parameter of a predetermined subframe is efficiently quantized using the SP record book 6, and a quantized value that minimizes the following equation is output.

【0048】 [0048]

【0049】ここで、LSP(i), QLSP(i)j,W(i)はそれぞ
れ、量子化前のi次目のLTP,LSPコードブック6
のコードベクトルのj番目の結果、重み係数である。
Here, LSP (i), QLSP (i) j and W (i) are the i-th LTP and LSP codebooks 6 before quantization, respectively.
The result of the j-th code vector is the weight coefficient.

【0050】以下では、第4サブフレームのLSPパラ
メータを量子化するものとする。LSPパラメータのベ
クトル量子化の手法は周知の手法を用いることができ
る。具体的な方法は例えば、特開平4―171500号
公報(文献6)あるいは特開平4―363000号公報
(文献7)や、特開平5―6199号公報(文献8)
や、ティー・ノムラ(T.Nomura)等によるアイイーイーイ
ー・プロシーディングス.モバイル・マルチメディア・
コミュニケーションズ(IEEE Proc.Mobile Multimedia
Communications.)1993年、B.2.5頁にエルエスピー
・コーディング・ユージング・ブイキュー−エスブイキ
ュー・ウイズ・インターポウレーション・イン・4.0
75・ケービーピーエス・エム−エルシーイーエルピー
・スピーチ・コーダー (LSP Coding Using VQ-SVQ Wit
h Interpolation in 4.075 kbps M-LCELP Speech Code
r) と題した論文(文献9)等を参照できるのでここで
は説明は略する。
In the following, it is assumed that the LSP parameter of the fourth subframe is quantized. A well-known method can be used for the method of vector quantization of LSP parameters. Specific methods are described in, for example, JP-A-4-171500 (Reference 6), JP-A-4-363000 (Reference 7), and JP-A-5-6199 (Reference 8).
And IEE Proceedings by T. Nomura and others. Mobile multimedia
Communications (IEEE Proc. Mobile Multimedia
Communications.) 1993; On page 2.5, LSP Coding Using Viku-SV-Q-with with Interpolation in 4.0
75KPS M-LSP Coding Using VQ-SVQ Wit
h Interpolation in 4.075 kbps M-LCELP Speech Code
r), the description of which is omitted here.

【0051】また、スペクトルパラメータ量子化回路5
では、第4サブフレームで量子化したLSPパラメータ
をもとに、第1〜第4サブフレームのLSPパラメータ
を復元する。ここでは、現フレームの第4サブフレーム
の量子化LSPパラメータと1つ過去のフレームの第4
サブフレームの量子化LSPを直線補間して、第1〜第
3サブフレームのLSPを復元する。ここで、量子化前
のLSPと量子化後のLSPとの誤差電力を最小化する
コードベクトルを1種類選択した後に、直線補間により
第1〜第4サブフレームのLSPを復元できる。さらに
性能を向上させるためには、誤差電力を最小化するコー
ドベクトルを複数候補選択したのちに、各々の候補につ
いて、累積歪を評価し、累積歪を最小化する候補と補間
LSPの組を選択するようにすることができる。詳細
は、例えば、特願平5―8737号明細書(文献10)
を参照することができる。
The spectrum parameter quantization circuit 5
Then, the LSP parameters of the first to fourth subframes are restored based on the LSP parameters quantized in the fourth subframe. Here, the quantization LSP parameter of the fourth sub-frame of the current frame and the fourth
The LSPs of the first to third subframes are restored by linearly interpolating the quantized LSPs of the subframe. Here, after selecting one type of code vector that minimizes the error power between the LSP before quantization and the LSP after quantization, the LSPs of the first to fourth subframes can be restored by linear interpolation. In order to further improve performance, after selecting a plurality of candidates for the code vector that minimizes the error power, evaluate the cumulative distortion for each candidate, and select a combination of the candidate and the interpolation LSP that minimizes the cumulative distortion. You can make it. For details, see, for example, Japanese Patent Application No. 5-8737 (Reference 10).
Can be referred to.

【0052】以上により復元した第1ー3サブフレーム
のLSPと第4サブフレームの量子化LSPをサブフレ
ームごとに線形予測係数α'il(i=1,…,10, l=,…,5) に
変換し、インパルス応答計算回路10に出力する。ま
た、第4サブフレームの量子化LSPのコードベクトル
を表すインデクスをマルチプレクサ16に出力する。聴
感重み付け回路7は、スペクトルパラメータ計算回路4
から、各サブフレームごとに量子化前の線形予測係数α
il (i=1,…,10, l=,…,5) を入力し、文献1にもとづ
き、サブフレームの音声信号に対して聴感重み付けを行
い、聴感重み付け信号を出力する。
The LSPs of the first to third sub-frames and the quantized LSPs of the fourth sub-frame, which have been reconstructed as described above, are converted into linear prediction coefficients α ′ il (i = 1,..., 10, l =,. ) And outputs it to the impulse response calculation circuit 10. Further, an index representing the code vector of the quantized LSP of the fourth subframe is output to the multiplexer 16. The audibility weighting circuit 7 includes a spectrum parameter calculation circuit 4
From the linear prediction coefficient α before quantization for each subframe.
il (i = 1,..., 10, l =,..., 5) is input, and the perceptual weighting is performed on the audio signal of the subframe based on Document 1 to output a perceptual weighting signal.

【0053】応答信号計算回路9は、スペクトルパラメ
ータ計算回路4から、各サブフレームごとに線形予測係
数αilを入力し、スペクトルパラメータ量子化回路5か
ら、量子化、補間して復元した線形予測係数α'il をサ
ブフレームごとに入力し、保存されているフィルタメモ
リの値を用いて、入力信号を零d(n)=0とした応答信号を
1サブフレーム分計算し、減算器8に出力する。ここ
で、応答信号xz(n) は下式で表される。
The response signal calculation circuit 9 receives the linear prediction coefficient α il for each subframe from the spectrum parameter calculation circuit 4, and quantizes, interpolates and restores the linear prediction coefficient α il from the spectrum parameter quantization circuit 5. α ′ il is input for each sub-frame, a response signal with the input signal set to zero d (n) = 0 is calculated for one sub-frame using the stored value of the filter memory, and output to the subtractor 8 I do. Here, the response signal x z (n) is represented by the following equation.

【0054】 [0054]

【0055】但し、n-i ≦ 0のときは y(n-i)=p(N+(n-i)) (9) xz(n-i)=sw(N+(n-i)) (10) ここでNはサブフレーム長を示す。γは、聴感重み付け
量を制御する重み係数であり、下記の式(12)と同一の値
である。sw(n) ,p(n)は、それぞれ、重み付け信号計算
回路17の出力信号、後述の式(12)における右辺第1項
のフィルタの分母の項の出力信号をそれぞれ示す。
However, when ni ≦ 0, y (ni) = p (N + (ni)) (9) x z (ni) = s w (N + (ni)) (10) where N is the subframe length Is shown. γ is a weight coefficient for controlling the hearing weighting amount, and is the same value as the following equation (12). s w (n) and p (n) respectively represent the output signal of the weighting signal calculation circuit 17 and the output signal of the denominator term of the filter of the first term on the right side in Expression (12) described later.

【0056】減算器8は、下式により、聴感重み付け信
号から応答信号を1サブフレーム分減算し、x'w(n)を適
応コードブック回路11に出力する。 x'w(n)=xw(n)-xz(n) (11) インパルス応答計算回路10は、z 変換が下式で表され
る聴感重み付けフィルタのインパルス応答 hw(n)をあら
かじめ定められた点数Lだけ計算し、適応コードブック
回路11と音源量子化回路12とゲイン量子化回路14
とに出力する。
The subtractor 8 subtracts the response signal by one subframe from the perceptual weighting signal according to the following equation, and outputs x ′ w (n) to the adaptive codebook circuit 11. x ′ w (n) = x w (n) −x z (n) (11) The impulse response calculation circuit 10 calculates in advance the impulse response h w (n) of the auditory weighting filter whose z-transformation is expressed by the following equation. Calculation is performed for a predetermined number L, and the adaptive codebook circuit 11, the sound source quantization circuit 12, and the gain quantization circuit 14
And output to

【0057】 [0057]

【0058】適応コードブック回路11では、ゲイン量
子化回路14からは過去の音源信号v(n)を、減算器8か
らは出力信号x'w(n)を、インパルス応答計算回路10か
らは聴感重み付けインパルス応答 hw(n)を入力する。ピ
ッチに対応する遅延Tを下式の歪みを最小化するように
求め、遅延を表すインデクスをマルチプレクサ16に出
力する。
In the adaptive codebook circuit 11, the past sound source signal v (n) is output from the gain quantization circuit 14, the output signal x ′ w (n) is output from the subtracter 8, and the audibility is output from the impulse response calculation circuit 10. Enter the weighted impulse response h w (n). The delay T corresponding to the pitch is determined so as to minimize the distortion of the following expression, and an index representing the delay is output to the multiplexer 16.

【0059】 [0059]

【0060】ここで、 yw(n−T)=v(n −T)*hw(n) (14) であり、記号*は畳み込み演算を表す。ゲインβを下式
に従い求める。
Here, y w (n−T) = v (n−T) * h w (n) (14), and the symbol * represents a convolution operation. The gain β is obtained according to the following equation.

【0061】 [0061]

【0062】ここで、女性音や、子供の声に対して、遅
延の抽出精度を向上させるために、遅延を整数サンプル
ではなく、小数サンプル値で求めてもよい。具体的な方
法は、例えば、ピー・クルーン(P.Kroon) 等によるアイ
イーイーイー・プロシーディングス(IEEE Proc.)ICASSP
-90,1990年、661〜664頁にピッチ・プリディクタ
ーズ・ウイズ・ハイ・テンポラル・ソリューション(Pit
ch predictors with high temporal resolution)と題し
て発表した論文(文献11)等を参照することができ
る。
Here, in order to improve the accuracy of extracting delays for female sounds and children's voices, the delays may be determined not by integer samples but by decimal sample values. A concrete method is, for example, IACSSP by P. Kroon et al. (IEEE Proc.)
-90, 1990, Pitch Predictors with High Temporal Solution (Pit
For example, a paper (Reference 11) published under the title of "Ch predictors with high temporal resolution" can be referred to.

【0063】さらに、適応コードブック回路11では下
式に従いピッチ予測を行ない、予測残差信号ew(n) を音
源量子化回路12に出力する。 ew(n) =x'w(n)- βv(n-T)*hw(n) (16) 音源量子化回路12では、作用で述べたように、M個の
パルスをたてるものとする。以下では、パルスの振幅を
Mパルス分まとめて量子化するために、Bビットの振幅
コードブック13を有しているものとして説明する。
Further, the adaptive codebook circuit 11 performs pitch prediction according to the following equation, and outputs a prediction residual signal e w (n) to the excitation quantization circuit 12. e w (n) = x ′ w (n) −βv (nT) * h w (n) (16) In the sound source quantization circuit 12, as described in the operation, it is assumed that M pulses are emitted. . In the following, a description will be given assuming that a B-bit amplitude codebook 13 is provided in order to collectively quantize the pulse amplitude for M pulses.

【0064】音源量子化回路12は、振幅コードブック
13から振幅コードベクトルを読みだし、各コードベク
トルに対してすべての位置をあてはめ、下式を最小化す
るコードベクトルと位置の組合せを選択する。
The sound source quantization circuit 12 reads out the amplitude code vectors from the amplitude code book 13, applies all positions to each code vector, and selects a combination of a code vector and a position that minimizes the following expression.

【0065】 [0065]

【0066】ここで、hw(n) は、聴感重み付けインパル
ス応答である。
Here, h w (n) is an auditory weighting impulse response.

【0067】式(16)を最小化するには、下式を最大化す
る振幅コードベクトルkと位置miの組合せを求めれば良
い。
[0067] To minimize equation (16) may be determined a combination of an amplitude code vector k and a position m i that maximizes the following equation.

【0068】 [0068]

【0069】ここで、swk(mi) は式(5) で計算される。
また別法としては、下式を最大化するように選択しても
良い。この方が分子に計算に要する演算量が低減化され
る。
Here, s wk (m i ) is calculated by equation (5).
Alternatively, a choice may be made to maximize: In this case, the amount of calculation required for the calculation of the numerator is reduced.

【0070】 [0070]

【0071】ここでHere,

【0072】 [0072]

【0073】である。Is as follows.

【0074】そして、コードベクトルを表すインデクス
をマルチプレクサ16に出力する。さらに、パルスの位
置をあらかじめ定められたビット数で量子化し、位置を
表すインデクスをマルチプレクサ16に出力する。
Then, the index representing the code vector is output to the multiplexer 16. Further, the position of the pulse is quantized by a predetermined number of bits, and an index representing the position is output to the multiplexer 16.

【0075】パルスにおける位置の探索法は、前述の文
献3に記された方法や、例えば、ケー・オザワ(K.Ozaw
a) 氏らによるアイイーイーイー・ジャーナル・オブ・
セレクテッド・エリア・オン・コミュニケーションズ(I
EEE Journal of Selected Areas on Communications.),
1986年、133〜141頁にア・スタディー・オン・パ
ルス・サーチ・アルゴリズムズ・フォー・マルチパルス
・エキサイト・スピーチ・コーダ・リアリゼーション(A
study on pulse searchalgorithms for multipulse ex
cited speech coder realization.)と題した論文(文献
12)等を参照できる。
A method of searching for a position in a pulse is described in the above-mentioned reference 3 or, for example, K. Ozaw (K. Ozaw).
a) IEE Journal of
Selected Area On Communications (I
EEE Journal of Selected Areas on Communications.),
1986, pages 133-141, A Study on Pulse Search Algorithms for Multipulse Excite Speech Coder Realization (A
study on pulse searchalgorithms for multipulse ex
cited speech coder realization.) (Reference 12).

【0076】また、複数パルスの振幅を量子化するため
のコードブックを、音声信号を用いて予め学習して格納
しておくこともできる。コードブックの学習法は、例え
ば、リンデ(Linde) 氏らによるアイイーイーイー・トラ
ンザクション・コミュニケーションズ(IEEE Trans. Com
mun.), January, 1980年、84〜95頁にアン・アルゴ
リズム・フォー・ベクトル・クアンティゼイション・デ
ザイン(An algorithmfor vector quantization desig
n,)と題した論文(文献13)等を参照できる。
Further, a code book for quantizing the amplitude of a plurality of pulses can be learned and stored in advance using an audio signal. Codebook learning methods include, for example, Linde et al.'S IEEE Trans.
mun.), January, 1980, pp. 84-95, An algorithm for vector quantization desig.
n,) can be referred to.

【0077】振幅、位置の情報はゲイン量子化回路14
に出力される。ゲイン量子化回路14は、ゲインコード
ブック15からゲインコードベクトルを読みだし、選択
された振幅コードベクトルと位置に対して、下式を最小
化するようにゲインコードベクトルを選択する。ここで
は、適応コードブックのゲインとパルスで表した音源の
ゲインの両者を同時にベクトル量子化する例について示
す。
The information on the amplitude and the position is obtained by the gain quantization circuit 14.
Is output to The gain quantization circuit 14 reads the gain code vector from the gain code book 15 and selects a gain code vector for the selected amplitude code vector and position so as to minimize the following expression. Here, an example will be described in which both the gain of the adaptive codebook and the gain of the sound source expressed in pulses are simultaneously vector-quantized.

【0078】 [0078]

【0079】ここで、β't,G't は、ゲインコードブッ
ク15に格納された2次元ゲインコードブックにおける
k番目のコードベクトルである。選択されたゲインコー
ドベクトルを表すインデクスをマルチプレクサ16に出
力する。
Here, β′t, G′t are the k-th code vector in the two-dimensional gain codebook stored in the gain codebook 15. An index representing the selected gain code vector is output to the multiplexer 16.

【0080】重み付け信号計算回路17は、それぞれの
インデクスを入力し、インデクスからそれに対応するコ
ードベクトルを読みだし、まず下式にもとづき駆動音源
信号v(n)を求める。
The weighting signal calculation circuit 17 receives the respective indexes, reads out the corresponding code vectors from the indexes, and obtains the driving sound source signal v (n) based on the following equation.

【0081】 [0081]

【0082】v(n)は適応コードブック回路11に出力さ
れる。
V (n) is output to the adaptive codebook circuit 11.

【0083】次に、スペクトルパラメータ計算回路4の
出力パラメータ、スペクトルパラメータ量子化回路5の
出力パラメータを用いて下式により、応答信号sw(n) を
サブフレームごとに計算し、応答信号計算回路9に出力
する。
Next, the response signal s w (n) is calculated for each subframe by the following equation using the output parameter of the spectrum parameter calculation circuit 4 and the output parameter of the spectrum parameter quantization circuit 5, and the response signal calculation circuit 9 is output.

【0084】 [0084]

【0085】以上により、本発明の第1の実施の形態の
説明を終える。
The description of the first embodiment of the present invention has been completed.

【0086】図2は本発明の第2の実施の形態を示すブ
ロック図である。
FIG. 2 is a block diagram showing a second embodiment of the present invention.

【0087】第2の実施の形態である音声符号化装置1
8が、第1の実施の形態と異なる点は、音源量子化回路
19の動作が、作用の項での表に示すパルスの位置を格
納している位置格納回路20から各パルスの位置を読み
だし、これらの位置の組合せに対してのみ、式(18)また
は(19)を最大化する位置と振幅コードベクトルの組合せ
を選択するようになっている点である。以上で第2の発
明の説明を終了する。
Speech Encoding Apparatus 1 of Second Embodiment
8 is different from the first embodiment in that the operation of the sound source quantization circuit 19 reads the position of each pulse from the position storage circuit 20 storing the position of the pulse shown in the table in the section of the operation. However, only in the combination of these positions, the combination of the position and the amplitude code vector that maximizes the expression (18) or (19) is selected. This concludes the description of the second invention.

【0088】図3は本発明の第3の実施の形態を示すブ
ロック図である。
FIG. 3 is a block diagram showing a third embodiment of the present invention.

【0089】第3の実施の形態である音声符号化装置2
1が、第1の実施の形態と異なる点は、予備選択回路2
2を新たに設け、コードブック13に格納されたコード
ベクトルから、複数個のコードベクトルを予備選択する
点である。予備選択の方法として、ここでは下記の方法
に従う。適応コードブック出力信号ew(n) と、スペクト
ルパラメータαi を用いて下式により残差信号z(n)を計
算する。
Speech coding apparatus 2 according to a third embodiment
1 is different from the first embodiment in that the preselection circuit 2
2 is newly provided, and a plurality of code vectors are preliminarily selected from the code vectors stored in the code book 13. Here, the following method is used as a preselection method. The residual signal z (n) is calculated by the following equation using the adaptive codebook output signal e w (n) and the spectrum parameter α i .

【0090】 [0090]

【0091】続いて式(25)もしく式(26)を最大化する順
に、振幅コードベクトルを複数種類予備選択し、音源量
子化回路23に出力する。
Subsequently, a plurality of amplitude code vectors are preliminarily selected in the order of maximizing the equation (25) or the equation (26), and output to the sound source quantization circuit 23.

【0092】 [0092]

【0093】音源量子化回路23では、予備選択された
振幅コードベクトル対してのみ、位置の組合せに対して
式(18)または(19)を計算し、これを最大にする位置とコ
ードベクトルの組合せを出力する。
The sound source quantization circuit 23 calculates the equation (18) or (19) for the combination of positions only for the amplitude code vector preliminarily selected, and calculates the combination of the position and the code vector that maximizes this. Is output.

【0094】図4は本発明の第4の実施の形態を示すブ
ロック図である。
FIG. 4 is a block diagram showing a fourth embodiment of the present invention.

【0095】第4の実施の形態である音声符号化装置2
4が、第1の実施の形態と異なる点は、音源量子化回路
25が、文献12や文献3の方法により、あらかじめ定
められた個数Mのパルスの位置を複数セット分計算す
る。ここでは、簡単のために、M個の位置を2セット分
計算するものとする。
Speech coding apparatus 2 according to a fourth embodiment
4 is different from the first embodiment in that the sound source quantization circuit 25 calculates the positions of a predetermined number M of pulses for a plurality of sets by the method of Reference 12 or Reference 3. Here, for simplicity, it is assumed that M positions are calculated for two sets.

【0096】まず第1セットの位置に対して、振幅コー
ドブック25から振幅コードベクトルを読みだし、式(1
8)または(19)を最大化する振幅コードベクトルを選択
し、下式により、第1の歪みD1を計算する。次に、第2
セットの位置に対して振幅コードブック25から振幅コ
ードベクトルを読みだし、上記と同様の処理を繰り返
し、第2の歪みD2を計算する。次に、第1と第2の歪み
を比較し、より小さい方の歪みを与える位置と振幅コー
ドベクトルの組合せを選択する。ここで、歪みの定義は
下式に従う。
First, the amplitude code vector is read from the amplitude code book 25 for the first set of positions, and the expression (1)
8) or (19) to select the amplitude code vectors which maximize the following equation, it calculates a first distortion D 1. Next, the second
The amplitude code vector is read from the amplitude codebook 25 for the position of the set, and the same processing as above is repeated to calculate the second distortion D2. Next, the first distortion and the second distortion are compared, and a combination of a position giving the smaller distortion and an amplitude code vector is selected. Here, the definition of distortion follows the following formula.

【0097】 [0097]

【0098】そして、位置と振幅コードベクトルを表す
インデクスをマルチプレクサ16に出力する。
Then, an index representing the position and the amplitude code vector is output to the multiplexer 16.

【0099】図5は本発明の第5の実施の形態を示すブ
ロック図である。
FIG. 5 is a block diagram showing a fifth embodiment of the present invention.

【0100】第5の実施の形態である音声符号化装置2
4が、第4の実施の形態と異なる点は、音源量子化回路
28が、図4の音源量子化回路25とでは、パルスのと
りうる位置が限定されている点である。音源量子化回路
28は、位置格納回路20から限定された位置を読みだ
し、これらの位置の組合せから、M個の位置を2セット
分選択し、音源量子化回路25と同一の処理を行ない、
式(18)または(19)を最大化する位置と振幅コードベクト
ルの組合せを選択する。次に、第1の実施の形態と同一
の方法でパルスの位置を求め、これを量子化してマルチ
プレクサ16及びゲイン量子化回路14に出力する。
Speech coding apparatus 2 according to a fifth embodiment
The fourth embodiment differs from the fourth embodiment in that the sound source quantization circuit 28 and the sound source quantization circuit 25 shown in FIG. The sound source quantization circuit 28 reads the limited positions from the position storage circuit 20, selects two sets of M positions from the combination of these positions, and performs the same processing as the sound source quantization circuit 25.
A combination of the position and the amplitude code vector that maximizes the expression (18) or (19) is selected. Next, the position of the pulse is obtained by the same method as in the first embodiment, and is quantized and output to the multiplexer 16 and the gain quantization circuit 14.

【0101】図6は本発明の第6の実施の形態を示すブ
ロック図である。
FIG. 6 is a block diagram showing a sixth embodiment of the present invention.

【0102】第6の実施の形態である音声符号化装置2
9が、第4の実施の形態と異なる点は、モード判別回路
31を新たに設ける点である。モード判別回路31は、
聴感重み付け回路7からフレーム単位で聴感重み付け信
号を受取り、モード判別情報を音源量子化回路30に出
力する。ここでは、モード判別に、現在のフレームの特
徴量を用いる。特徴量としては、例えば、フレームで平
均したピッチ予測ゲインを用いる。ピッチ予測ゲインの
計算は、例えば下式を用いる。
Speech coding apparatus 2 according to a sixth embodiment
9 is different from the fourth embodiment in that a mode discriminating circuit 31 is newly provided. The mode determination circuit 31
It receives a perceptual weighting signal from the perceptual weighting circuit 7 in frame units and outputs mode discrimination information to the sound source quantization circuit 30. Here, the feature amount of the current frame is used for mode determination. As the characteristic amount, for example, a pitch prediction gain averaged in a frame is used. The calculation of the pitch prediction gain uses, for example, the following equation.

【0103】 [0103]

【0104】ここで、Lはフレームに含まれるサブフレ
ームの個数である。Pi 、Ei はそれぞれ、i番目のサ
ブフレームでの音声パワー、ピッチ予測誤差パワーを示
す。
Here, L is the number of subframes included in the frame. Pi and Ei respectively represent the speech power and the pitch prediction error power in the i-th subframe.

【0105】 [0105]

【0106】ここで、Tは予測ゲインを最大化する最適
遅延である。
Here, T is an optimal delay for maximizing the prediction gain.

【0107】フレーム平均ピッチ予測ゲインGをあらか
じめ定められた複数個のしきい値と比較して複数種類の
モードに分類する。モードの個数としては、例えば4を
用いることができる。モード判別回路31は、モード判
別情報を音源量子化回路30とマルチプレクサ16とに
出力する。音源量子化回路30は、モード判別情報を入
力し、モード判別情報が予め定められたモードを示す場
合に、図4の音源量子化回路と同一の処理を行う。
The frame average pitch prediction gain G is compared with a plurality of predetermined thresholds, and classified into a plurality of types of modes. As the number of modes, for example, 4 can be used. The mode discrimination circuit 31 outputs the mode discrimination information to the sound source quantization circuit 30 and the multiplexer 16. The sound source quantization circuit 30 receives the mode discrimination information, and performs the same processing as the sound source quantization circuit of FIG. 4 when the mode discrimination information indicates a predetermined mode.

【0108】図7は本発明の第7の実施の形態を示すブ
ロック図である。
FIG. 7 is a block diagram showing a seventh embodiment of the present invention.

【0109】第7の実施の形態である音声符号化装置2
9が、第6の実施の形態と異なる点は、音源量子化回路
33が、第6の実施の形態の音源量子化回路30とで
は、パルスのとりうる位置が限定されている点である。
位置格納回路20から限定された位置を読みだし、これ
らの位置の組合せから、M個の位置を2セット選択し、
音源量子化回路30と同一の処理を行い、式(18)または
(19)を最大化する位置と振幅コードベクトルの組合せを
選択する。
Speech coding apparatus 2 according to a seventh embodiment
9 is different from the sixth embodiment in that the possible positions of the pulse of the sound source quantization circuit 33 and the sound source quantization circuit 30 of the sixth embodiment are limited.
The limited positions are read from the position storage circuit 20, and two sets of M positions are selected from a combination of these positions,
The same processing as the sound source quantization circuit 30 is performed, and the equation (18) or
Select the combination of the position and the amplitude code vector that maximizes (19).

【0110】図8は本発明の第8の実施の形態を示すブ
ロック図である。
FIG. 8 is a block diagram showing an eighth embodiment of the present invention.

【0111】第8の実施の形態である音声符号化装置3
4が、第6の実施の形態と異なる点は、ゲインコードブ
ック35,36の2組とし、音源コードブック37を新
たに設ける点である。音源量子化回路38は、モードに
応じて音源を切替える。即ち、予め定められたモードで
は、第6の実施の形態の音源量子化回路30と同一の動
作を行い、音源を複数パルスから構成し、パルスの位置
と振幅コードベクトルの組合せを求める。また、予め定
められた別のモードでは、作用で説明したように、音源
を、複数パルスと音源コードブック37から選択した音
源コードベクトルとの線形結合により構成し、式(5) の
ように表す。そして、パルスの振幅と位置を探索した後
に、最適な音源コードベクトルを探索する。ゲイン量子
化回路39は、モードに応じて音源に対応して、ゲイン
コードブック1とゲインコードブック2を切替える。
Speech coding apparatus 3 according to the eighth embodiment
4 differs from the sixth embodiment in that two sets of gain codebooks 35 and 36 are provided and a sound source codebook 37 is newly provided. The sound source quantization circuit 38 switches the sound source according to the mode. That is, in the predetermined mode, the same operation as the sound source quantization circuit 30 of the sixth embodiment is performed, the sound source is composed of a plurality of pulses, and the combination of the pulse position and the amplitude code vector is obtained. Further, in another predetermined mode, as described in the operation, the sound source is configured by a linear combination of a plurality of pulses and a sound source code vector selected from the sound source codebook 37, and is represented by Expression (5). . Then, after searching for the pulse amplitude and position, an optimum sound source code vector is searched for. The gain quantization circuit 39 switches between the gain codebook 1 and the gain codebook 2 according to the sound source according to the mode.

【0112】図9は本発明の第9の実施の形態を示すブ
ロック図である。
FIG. 9 is a block diagram showing a ninth embodiment of the present invention.

【0113】第9の実施の形態である音声符号化装置4
0が、第8の実施の形態と異なる点は、音源量子化回路
41が、第8の実施の形態の音源量子化回路38とで
は、パルスのとりうる位置が限定されている点である。
位置格納回路20から限定された位置を読みだし、これ
らの位置の組合せから、パルスの位置と振幅コードベク
トルの組合せを選択する。
Speech coding apparatus 4 according to the ninth embodiment
0 is different from the eighth embodiment in that the possible positions of the pulse of the sound source quantization circuit 41 and the sound source quantization circuit 38 of the eighth embodiment are limited.
A limited position is read from the position storage circuit 20, and a combination of a pulse position and an amplitude code vector is selected from a combination of these positions.

【0114】以上で本発明の実施の形態による説明を終
える。
The description of the embodiment of the present invention has been completed.

【0115】上述した実施の形態に限らず、種々の変形
が可能である。モード判別情報を用いて適応コードブッ
ク回路や、ゲインコードブックを切替える構成とするこ
ともできる。
The present invention is not limited to the above-described embodiment, and various modifications are possible. It is also possible to adopt a configuration in which the adaptive codebook circuit and the gain codebook are switched using the mode determination information.

【0116】ゲイン量子化回路では、式(21)を最小化す
るようにゲインコードベクトルを探索する際に、振幅コ
ードブックから複数個の振幅コードベクトルを出力し、
各々のコードベクトルに対して、式(21)を最小化するよ
うな振幅コードベクトルとゲインコードベクトルの組合
せを選択することもできる。また、式(18),(19)で振幅
コードベクトルを探索する際に、適応コードべクトルと
の間で直交化させながら探索することにより、さらに性
能を改善することができる。
The gain quantization circuit outputs a plurality of amplitude code vectors from the amplitude code book when searching for a gain code vector so as to minimize equation (21).
For each code vector, a combination of an amplitude code vector and a gain code vector that minimizes Equation (21) can be selected. In addition, when searching for an amplitude code vector using Equations (18) and (19), performance can be further improved by performing a search while orthogonalizing with an adaptive code vector.

【0117】直交化は下記のように行う。 qk(n) = swk(n) - [Ψk/Υ]bw(n) (31) ここで、The orthogonalization is performed as follows. q k (n) = s wk (n)-[Ψ k / Υ] b w (n) (31) where

【0118】 [0118]

【0119】但し、bw(n)は、適応コードベクトルによ
り重み付け再生された信号であり、 bw(n) = βv(n-T)*hw(n) (34) である。
Here, b w (n) is a signal weighted and reproduced by the adaptive code vector, and b w (n) = βv (nT) * h w (n) (34).

【0120】直交化により、適応コードブックの項はな
くなり、下式 もしくは式(36)を最大化する振幅コード
ベクトルを選択すれば良い。
As a result of the orthogonalization, the term of the adaptive codebook disappears, and the amplitude code vector maximizing the following equation or equation (36) may be selected.

【0121】 [0121]

【0122】ここでHere,

【0123】 [0123]

【0124】である。Is as follows.

【0125】[0125]

【発明の効果】以上説明したように、本発明は、音源量
子化部での音源が複数個のパルスから構成され、このパ
ルスの振幅と位置の一方をまとめて量子化するコードブ
ックを有し、コードブックを探索しながら、他方のパラ
メータを計算する構成であるので、従来方式と比較し、
同一のビットレートでも、比較的少ない演算量で、より
高い音質を得ることができる。また本発明によれば、パ
ルスの振幅をまとめて量子化するコードブックを有し、
パルスの位置を複数セット計算した上で、各位置のセッ
トと振幅コードブックとを探索し、最良の組合せを選択
する構成であるので、従来方式に比べ、より高い音質が
得られるという効果がある。さらに本発明によれば、モ
ードに応じて音源を、複数個のパルスか、複数個のパル
スと音源コードブックから選択した音源コードベクトル
との線形結合で表しているので、種々の音声信号に対し
て従来よりも良好な音質が得られるという効果もある。
As described above, according to the present invention, the sound source in the sound source quantization unit is composed of a plurality of pulses, and has a code book for quantizing one of the amplitude and position of the pulses collectively. , The other parameter is calculated while searching the codebook, so that it is compared with the conventional method,
Even at the same bit rate, higher sound quality can be obtained with a relatively small amount of calculation. According to the present invention, there is provided a code book for quantizing pulse amplitudes collectively,
After calculating a plurality of sets of pulse positions, the set of each position and the amplitude codebook are searched and the best combination is selected, so that there is an effect that higher sound quality can be obtained as compared with the conventional method. . Furthermore, according to the present invention, the sound source is represented by a plurality of pulses or a linear combination of the plurality of pulses and a sound source code vector selected from the sound source codebook according to the mode. Therefore, there is also an effect that a better sound quality than before can be obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態を示すブロック図で
ある。
FIG. 1 is a block diagram showing a first embodiment of the present invention.

【図2】本発明の第2の実施の形態を示すブロック図で
ある。
FIG. 2 is a block diagram showing a second embodiment of the present invention.

【図3】本発明の第3の実施の形態を示すブロック図で
ある。
FIG. 3 is a block diagram showing a third embodiment of the present invention.

【図4】本発明の第4の実施の形態を示すブロック図で
ある。
FIG. 4 is a block diagram showing a fourth embodiment of the present invention.

【図5】本発明の第5の実施の形態を示すブロック図で
ある。
FIG. 5 is a block diagram showing a fifth embodiment of the present invention.

【図6】本発明の第6の実施の形態を示すブロック図で
ある。
FIG. 6 is a block diagram showing a sixth embodiment of the present invention.

【図7】本発明の第7の実施の形態を示すブロック図で
ある。
FIG. 7 is a block diagram showing a seventh embodiment of the present invention.

【図8】本発明の第8の実施の形態を示すブロック図で
ある。
FIG. 8 is a block diagram showing an eighth embodiment of the present invention.

【図9】本発明の第9の実施の形態を示すブロック図で
ある。
FIG. 9 is a block diagram showing a ninth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1,18,21,24,27,29,32,34,40
音声符号化装置 2 フレーム分割回路 3 サブフレーム分割回路 4 スペクトルパラメータ計算回路 5 スペクトルパラメータ量子化回路 6 線スペクトル対パラメータコードブック(LSP
コードブック) 7 聴感重み付け回路 8 減算器 9 応答信号計算回路 10 インパルス応答計算回路 11 適応コードブック回路 12,19,23,25,28,30,33,38,4
1 音源量子化回路 13,26 振幅コードブック 14,39 ゲイン量子化回路 15,35,36 ゲインコードブック 16 マルチプレクサ 17 重み付け信号計算回路 20 位置格納回路 22 予備選択回路 31 モード判別回路 37 音源コードブック
1,18,21,24,27,29,32,34,40
Speech coding apparatus 2 Frame division circuit 3 Subframe division circuit 4 Spectrum parameter calculation circuit 5 Spectrum parameter quantization circuit 6 Line spectrum pair parameter codebook (LSP)
Codebook) 7 Perception weighting circuit 8 Subtractor 9 Response signal calculation circuit 10 Impulse response calculation circuit 11 Adaptive codebook circuit 12, 19, 23, 25, 28, 30, 33, 38, 4
Reference Signs List 1 sound source quantization circuit 13, 26 amplitude code book 14, 39 gain quantization circuit 15, 35, 36 gain code book 16 multiplexer 17 weighting signal calculation circuit 20 position storage circuit 22 preliminary selection circuit 31 mode discrimination circuit 37 sound source code book

Claims (10)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力した音声信号からスペクトルパラメ
ータを求めて量子化するスペクトルパラメータ計算部
と、前記スペクトルパラメータを用いて前記音声信号の
音源信号を量子化して出力する音源量子化部とを有する
音声符号化装置において、音源を複数個の非零のパルス
で構成し、前記非零のパルスの振幅もしくは位置のパラ
メータの一方をまとめて量子化するコードブックを有
し、前記音源量子化部が前記コードブックを探索しなが
ら、前記コードブックで表されていない位置または振幅
のいずれかのパラメータを求め前記非零のパルスを量子
化する機能を有することを特徴とする音声符号化装置。
1. A speech system comprising: a spectrum parameter calculation unit for obtaining and quantizing a spectrum parameter from an input speech signal; and a sound source quantization unit for quantizing and outputting a speech signal of the speech signal using the spectrum parameter. In the encoding device, the sound source is composed of a plurality of non-zero pulses, and has a codebook for quantizing one of the parameters of the amplitude or position of the non-zero pulse collectively, and the sound source quantization unit is configured to perform the While searching the codebook, position or amplitude not represented in said codebook
Speech coding apparatus characterized by having a function to quantize the pulse of the non-zero determined one of the parameters.
【請求項2】 音源量子化部は、少なくとも一つのパル
スのとりうる位置をあらかじめ限定していることを特徴
とする請求項1記載の音声符号化装置。
2. The speech coding apparatus according to claim 1, wherein the sound source quantization section previously limits a position where at least one pulse can be taken.
【請求項3】 音源量子化部は、コードブックから、あ
らかじめ与えられた式の値が大きい順に、あるいは小さ
い順に、複数個のコードベクトルを予備選択した後に、
前記予備選択したコードベクトルの各々に対し、パルス
の振幅もしくは位置のいずれかのパラメータを決定し、
あらかじめ与えられた式の値を最大化あるいは最小化す
るようなコードベクトルとパラメータの組み合わせを求
めることを特徴とする請求項1記載の音声符号化装置。
3. The sound source quantizing unit preliminarily selects a plurality of code vectors from a codebook in a descending order of a value of a given equation or in a descending order,
For each of the preselected code vectors, a pulse
Determine either the amplitude or position parameters of
Maximize or minimize the value of a given expression
Code vector and parameter combinations
Speech encoding apparatus according to claim 1, wherein the Melco.
【請求項4】 入力した音声信号からスペクトルパラメ
ータを求めて量子化するスペクトルパラメータ計算部
と、前記スペクトルパラメータを用いて前記音声信号の
音源信号を量子化して出力する音源量子化部とを有する
音声符号化装置において、音源を複数個の非零のパルス
で構成し、前記非零のパルスの振幅をまとめて量子化す
るコードブックを有し、前記音源量子化部が前記非零の
パルスの位置を複数セット分計算し、前記複数セット分
の位置に対し前記コードブックを探索し、予め与えられ
た式の値を最大及び最小のいずれか一方とする位置をも
つセットと、パルスの振幅をまとめて量子化するコード
ブックのコードベクトルとの組み合わせを選択して、音
源信号を量子化する機能を有することを特徴とする音声
符号化装置。
4. A speech having a spectrum parameter calculation unit for obtaining and quantizing a spectrum parameter from an input speech signal, and a sound source quantization unit for quantizing and outputting a speech signal of the speech signal using the spectrum parameter. In the encoding device, the sound source is composed of a plurality of non-zero pulses, and the code book has a code book for quantizing the amplitude of the non-zero pulses collectively. Is calculated for a plurality of sets, the code book is searched for the positions of the plurality of sets, and a set having a position where the value of a given equation is one of a maximum and a minimum, and a pulse amplitude are summarized. Code to quantize
A speech coding apparatus having a function of selecting a combination with a code vector of a book and quantizing a sound source signal.
【請求項5】 音源量子化部は、少なくとも一つのパル
スのとりうる位置があらかじめ限定されていることを特
徴とする請求項4記載の音声符号化装置。
5. The speech encoding apparatus according to claim 4, wherein a position where at least one pulse can be taken in the excitation quantization unit is limited in advance.
【請求項6】 入力した音声信号から一定時間ごとにス
ペクトルパラメータを求めて量子化するスペクトルパラ
メータ計算部と、前記スペクトルパラメータを用いて前
記音声信号の音源信号を量子化して出力する音源量子化
部とを有する音声符号化装置において、音源を複数個の
非零のパルスで構成し、前記非零のパルスの振幅をまと
めて量子化するコードブックと、前記音声信号から特徴
量を抽出してモードを判別するモード判別回路とを有
し、前記モード判別回路の判別結果が予め定められたモ
ードの場合に前記非零のパルスの位置を複数セット分計
算し、前記複数セットのそれぞれの位置に対し前記コー
ドブックを探索し、予め定められた式の値を最大及び最
小のいずれか一方とする位置をもつセットと、パルスの
振幅をまとめて量子化するコードブックのコードベクト
との組合わせを選択することにより音源信号を量子化
することを特徴とする音声符号化装置。
6. A spectrum parameter calculation unit for obtaining and quantizing a spectrum parameter at predetermined time intervals from an input speech signal, and a sound source quantization unit for quantizing and outputting a speech signal of the speech signal using the spectrum parameter. And a codebook in which the sound source is composed of a plurality of non-zero pulses, the amplitude of the non-zero pulses is collectively quantized, and a feature amount is extracted from the audio signal. And a mode discriminating circuit for discriminating the position of the non-zero pulse for a plurality of sets when the discrimination result of the mode discriminating circuit is a predetermined mode, for each position of the plurality of sets. The code book is searched, and a set having a position where the value of a predetermined expression is one of a maximum and a minimum is determined .
Code vector of a codebook that quantizes the amplitude at once
Le a speech coding apparatus characterized by quantizing a sound source signal by selecting a combination of.
【請求項7】 音源量子化部は、少なくとも一つのパル
スのとりうる位置をあらかじめ限定していることを特徴
とする請求項6記載の音声符号化装置。
7. The speech coding apparatus according to claim 6, wherein the sound source quantization section preliminarily limits a position where at least one pulse can be taken.
【請求項8】 入力した音声信号から一定時間ごとにス
ペクトルパラメータを求めて量子化するスペクトルパラ
メータ計算部と、前記スペクトルパラメータを用いて前
記音声信号の音源信号を量子化して出力する音源量子化
部とを有する音声符号化装置において、音源が複数個の
非零のパルスから構成され、前記パルスの振幅をまとめ
て量子化するコードブックと、前記音声信号から特徴量
を抽出してモードを判別するモード判別回路とを有し、
あらかじめ前記モード判別回路の判別結果が予め定めら
れたモードの場合に前記パルスの位置を少なくとも1セ
ット分計算し、予め与えられた式の値を最大および最小
のいずれか一方とする位置を持つセットの位置に対し前
記コードブックを探索し、良好な位置のセットとコード
ベクトルとの組合せを選択することにより音源信号を量
子化し、あらかじめ定められた他のモードでは、音源を
複数個のパルスと音源コードブックから選択した音源コ
ードベクトルの線形結合で表し、前記パルスと音源コー
ドベクトルを探索して量子化することを特徴とする音源
量子化部を有する音声符号化装置。
8. A spectrum parameter calculation unit for obtaining and quantizing a spectrum parameter at predetermined time intervals from an input speech signal, and a sound source quantization unit for quantizing and outputting a speech signal of the speech signal using the spectrum parameter. Wherein the sound source is composed of a plurality of non-zero pulses, and a codebook that collectively quantizes the amplitude of the pulses and a feature amount is extracted from the audio signal to determine a mode. A mode discriminating circuit,
A set having at least one set of the positions of the pulses when the determination result of the mode determination circuit is a predetermined mode, and setting the value of a given expression to a maximum or a minimum. Search the code book for the position, quantize the sound source signal by selecting a combination of a good set of positions and a code vector, and in another predetermined mode, the sound source is A speech coding apparatus having a sound source quantization unit, represented by a linear combination of a sound source code vector selected from a codebook, and searching and quantizing the pulse and the sound source code vector.
【請求項9】 音源量子化部は、少なくとも一つのパル
スのとりうる位置をあらかじめ限定していることを特徴
とする請求項8記載の音声符号化装置。
9. The speech coding apparatus according to claim 8, wherein the sound source quantization section previously limits a position where at least one pulse can be taken.
【請求項10】 入力した音声信号を予め定める時間長
のフレームに分割するフレーム分割回路と、前記フレー
ムの音声信号をフレームよりも短い時間長のサブフレー
ムに分割するサブフレーム分割回路と、前記フレーム分
割回路の出力する一連のフレームの音声信号を受信し少
なくとも1つのサブフレームの音声信号に対して前記サ
ブフレームの時間長よりも長い窓をかけて音声信号を切
り出してスペクトルパラメータを予め定められた次数ま
で計算するスペクトルパラメータ計算回路と、線スペク
トル対パラメータコードブックを用いて前記スペクトル
パラメータ計算回路の計算した予め定めるサブフレーム
で量子化した線スペクトル対パラメータをベクトル量子
化するスペクトルパラメータ量子化回路と、前記スペク
トルパラメータ計算回路の計算した複数のサブフレーム
の線形予測係数を受け各サブフレームの音声信号に対し
て聴感重み付けを行い聴感重み付け信号を出力する聴感
重み付け回路と、前記スペクトルパラメータ計算回路の
計算した複数のサブフレームの線形予測係数と前記スペ
クトルパラメータ量子化回路が復元した線形予測係数と
をサブフレームごとに入力し応答信号を1サブフレーム
分計算し減算器に出力する応答信号計算回路と、前記ス
ペクトルパラメータ量子化回路が復元した線形予測係数
を受け、聴感重み付けフィルタのインパルス応答を予め
定める点数計算するインパルス応答計算回路と、出力側
から帰還する過去の音源信号と前記減算器の出力信号と
前記聴感重み付けフィルタのインパルス応答とを入力し
ピッチに対応する遅延を求め遅延を表すインテックスを
出力する適応コードブック回路と、音源を構成するパル
スの振幅および位置のパラメータの一方をまとめて量子
化するコードブックを用いて複数個の非零のパルスの他
方のパラメータを求め量子化する音源量子化回路と、
インコードブックを探索し、選択された振幅コードベク
トルと位置に対して、与えられた式を最大化あるいは最
小化するようなゲインコードベクトルを選択し、この選
択したゲインコードベクトルを表すインデックスをマル
チプレクサに出力するゲイン量子化回路と、前記ゲイン
量子化回路の出力を入力しインデックスからこれに対応
するコードベクトルを読みだし駆動音源信号を求める重
み付け信号計算回路とを有することを特徴とする音声符
号化装置。
10. A frame division circuit that divides an input audio signal into frames of a predetermined time length, a subframe division circuit that divides an audio signal of the frame into subframes of a time length shorter than a frame, A speech signal of a series of frames output from the dividing circuit is received, and a speech signal is cut out by applying a window longer than the time length of the subframe to the speech signal of at least one subframe, and a spectrum parameter is predetermined. A spectrum parameter calculation circuit that calculates up to the order, a spectrum parameter quantization circuit that vector-quantizes a line spectrum pair parameter quantized in a predetermined subframe calculated by the spectrum parameter calculation circuit using a line spectrum pair parameter codebook, , The spectral parameter calculation A perceptual weighting circuit that receives a linear prediction coefficient of a plurality of subframes calculated by the circuit, performs perceptual weighting on an audio signal of each subframe and outputs a perceptual weighting signal, and a plurality of subframes calculated by the spectrum parameter calculating circuit. A response signal calculation circuit that inputs a linear prediction coefficient of the sub-frame and a linear prediction coefficient restored by the spectrum parameter quantization circuit for each subframe, calculates a response signal for one subframe, and outputs the response signal to a subtractor; An impulse response calculation circuit that receives the linear prediction coefficient restored by the circuit and calculates a predetermined score for the impulse response of the perceptual weighting filter; Input impulse response and calculate delay corresponding to pitch to display delay Calculate and quantize the other parameter of a plurality of non-zero pulses using an adaptive codebook circuit that outputs the intex and a codebook that collectively quantizes one of the parameters of the amplitude and position of the pulse constituting the sound source and the sound source quantization circuit, a gate
Search the in-code book and select the selected amplitude code vector
Maximize or maximize a given expression for torque and position.
A gain quantization circuit that selects a gain code vector to be reduced , and outputs an index representing the selected gain code vector to a multiplexer, and an output of the gain quantization circuit that is input and a corresponding code vector is obtained from the index. And a weighting signal calculation circuit for reading out a driving excitation signal.
JP30720595A 1995-11-27 1995-11-27 Audio coding device Expired - Fee Related JP3144284B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP30720595A JP3144284B2 (en) 1995-11-27 1995-11-27 Audio coding device
US09/948,481 US6751585B2 (en) 1995-11-27 2001-09-07 Speech coder for high quality at low bit rates

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30720595A JP3144284B2 (en) 1995-11-27 1995-11-27 Audio coding device

Publications (2)

Publication Number Publication Date
JPH09146599A JPH09146599A (en) 1997-06-06
JP3144284B2 true JP3144284B2 (en) 2001-03-12

Family

ID=17966310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30720595A Expired - Fee Related JP3144284B2 (en) 1995-11-27 1995-11-27 Audio coding device

Country Status (1)

Country Link
JP (1) JP3144284B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393391B1 (en) 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
WO2000000963A1 (en) 1998-06-30 2000-01-06 Nec Corporation Voice coder
CN100578619C (en) * 2007-11-05 2010-01-06 华为技术有限公司 Encoding method and encoder
CN109389984B (en) 2017-08-10 2021-09-14 华为技术有限公司 Time domain stereo coding and decoding method and related products

Also Published As

Publication number Publication date
JPH09146599A (en) 1997-06-06

Similar Documents

Publication Publication Date Title
JP3346765B2 (en) Audio decoding method and audio decoding device
JP3094908B2 (en) Audio coding device
JP3196595B2 (en) Audio coding device
JP3180762B2 (en) Audio encoding device and audio decoding device
EP1005022B1 (en) Speech encoding method and speech encoding system
JP3582589B2 (en) Speech coding apparatus and speech decoding apparatus
JP3266178B2 (en) Audio coding device
JPH0944195A (en) Voice encoding device
CA2336360C (en) Speech coder
JP3144284B2 (en) Audio coding device
JP2538450B2 (en) Speech excitation signal encoding / decoding method
JP3299099B2 (en) Audio coding device
JP3003531B2 (en) Audio coding device
JP3360545B2 (en) Audio coding device
JP2613503B2 (en) Speech excitation signal encoding / decoding method
JP3319396B2 (en) Speech encoder and speech encoder / decoder
JP3153075B2 (en) Audio coding device
JP2001318698A (en) Voice coder and voice decoder
JP3471542B2 (en) Audio coding device
JP2001142499A (en) Speech encoding device and speech decoding device
JP3192051B2 (en) Audio coding device
JPH08320700A (en) Sound coding device
JP3092654B2 (en) Signal encoding device
JP2907019B2 (en) Audio coding device
JP3144244B2 (en) Audio coding device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20001128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080105

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090105

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100105

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees