JPH05273999A - Voice encoding method - Google Patents

Voice encoding method

Info

Publication number
JPH05273999A
JPH05273999A JP4073683A JP7368392A JPH05273999A JP H05273999 A JPH05273999 A JP H05273999A JP 4073683 A JP4073683 A JP 4073683A JP 7368392 A JP7368392 A JP 7368392A JP H05273999 A JPH05273999 A JP H05273999A
Authority
JP
Japan
Prior art keywords
pulse
noise
speech
sound source
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4073683A
Other languages
Japanese (ja)
Inventor
Yoshiaki Asakawa
吉章 淺川
Hidetoshi Sekine
英敏 関根
Yasuko Shinada
康子 品田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4073683A priority Critical patent/JPH05273999A/en
Publication of JPH05273999A publication Critical patent/JPH05273999A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To provide the voice encoding method which can obtain high-quality synthetic voice even at a low bit rate lower than 4kbps. CONSTITUTION:This method is provided with a pulse component adaptive code book 34, noise component adaptive code book 31, pulse generator 42, first noise code book 46, second noise code book 50 and sound source selector 54 at the voice encoding part, and the sound source code book is switched by weighted error evaluation. Thus. the reproduciveness of the cyclic component of voice is improved, and high-quality voice can be obtained even at the low bit rate.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、低ビットレートで高品
質な合成音声を得るに好適な音声符号化方法に関し、特
にビットレートを4kbps以下に低減することができ
る音声符号化方法に係る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech coding method suitable for obtaining high quality synthesized speech at a low bit rate, and more particularly to a speech coding method capable of reducing the bit rate to 4 kbps or less.

【0002】[0002]

【従来の技術】合成音声と原音声の重み付き誤差を評価
し、その誤差を最小化するように符号化パラメータを決
定する、「合成による分析」手法を取り入れた音声符号
化方式が最近提案され、低ビットレートにおいても比較
的良好な音声品質を得ることに成功している。代表的な
ものとして符号駆動線形予測符号化(CELP)方式
(例えば、M.R.Schroeder and B.S.Atal:"Code-exci
ted linear prediction (CELP)",Proc.ICASSP 85 (19
85.3))があり、4.8kbpsで実用的な音声品質を
達成している。また、CELP方式の改良方式も多数提
案されており、例えばベクトル和駆動線形予測符号化
(VSELP)方式(例えば、I. A. Gerson and M. A.
Jasiuk:"Vector sum excited linear prediction (VS
ELP) speech coding at 8kbps",Proc.ICASSP 90 (199
0.4))は、処理量やメモリ容量、ビット誤り耐性の点で
優れている。
2. Description of the Related Art Recently, a speech coding method incorporating a "synthesis analysis" method for evaluating a weighted error between synthetic speech and original speech and determining a coding parameter so as to minimize the error has been recently proposed. We have succeeded in obtaining relatively good voice quality even at low bit rates. A typical example is a code-driven linear predictive coding (CELP) method (for example, MR Schroeder and BSAtal: "Code-exci").
ted linear prediction (CELP) ", Proc. ICASSP 85 (19
85.3)) and achieves practical voice quality at 4.8 kbps. Also, many improved methods of the CELP method have been proposed, for example, vector sum driven linear predictive coding (VSELP) method (for example, IA Gerson and MA).
Jasiuk: "Vector sum excited linear prediction (VS
ELP) speech coding at 8kbps ", Proc. ICASSP 90 (199
0.4)) is excellent in processing amount, memory capacity, and bit error resistance.

【0003】一方無線通信のディジタル化が本格化し、
周波数の有効活用の観点から、より低いビットレート
(4kbps以下)の音声符号化方式の開発が望まれて
いる。CELPやVSELPを単純に低ビットレート化
しようとすると、品質劣化が大きくなり、限界がある。
これは低ビットレート化することによって音声に周期成
分の再現性が低下するためと考えられている。そこで、
周期成分の再現性を高めるような音源を採用する方式が
提案されている。
On the other hand, the digitization of wireless communication has begun in earnest,
From the viewpoint of effective use of frequencies, it is desired to develop a voice encoding system with a lower bit rate (4 kbps or less). If CELP or VSELP is simply made to have a low bit rate, quality deterioration becomes large and there is a limit.
It is considered that this is because the reproducibility of the periodic component in the voice is lowered by lowering the bit rate. Therefore,
A method that employs a sound source that enhances the reproducibility of the periodic component has been proposed.

【0004】このような方式としては、有声音でマルチ
パルス、無声音でCELPを用いる「MPC−CEL
P」方式(小澤、熊谷:”マルチパルスとCELPを用
いる3.2kb/s音声符号化方式”、電子情報通信学
会春季全国大会(1990.3))や、有声音では位相
と振幅を制御したシングルパルス、無声音ではCELP
を用いる「SPE−CELP」方式(W.Granzow and
B.S.Atal:"High-quality digital speech at 4 kb/
s",Proc.GLOBECOM 90 (1990.12))等がある。また、
音源としてパルスとそれに直交化させた雑音を用いる
「主軸適応VXC」方式(田中、他3:”複数ベクトル
合成によるCELP符号化”、日本音響学会講演論文集
1−3−5(1989.10))や、周期パルスと雑
音を切り替えて使用する「パルス/雑音選択型CEL
P」方式(吉田、他2:”低ビットレートCELP符号
化へのパルス音源探索の適用”、信学技報 SP91−
68(1991.10))も提案されている。
As such a system, "MPC-CEL" which uses multi-pulse for voiced sound and CELP for unvoiced sound is used.
P "method (Ozawa, Kumagai:" 3.2 kb / s speech coding method using multi-pulse and CELP ", IEICE Spring National Convention (1990.3)), and phase and amplitude control for voiced sounds. Single pulse, CELP for unvoiced sounds
"SPE-CELP" method (W. Granzow and
BSAtal: "High-quality digital speech at 4 kb /
s ", Proc. GLOBECOM 90 (1990.12)), etc.
"Spindle adaptive VXC" method using pulse and noise orthogonalized to it as a sound source (Tanaka et al. 3: "CELP coding by multiple vector synthesis", Acoustical Society of Japan Proceedings 1-3-5 (1989.10) ), Or “pulse / noise selection type CEL” that is used by switching between periodic pulse and noise
P ”method (Yoshida et al. 2:“ Application of pulse source search to low bit rate CELP coding ”, IEICE Technical Report SP91-
68 (1991.10)) has also been proposed.

【0005】[0005]

【発明が解決しようとする課題】上記提案方式には、次
のような問題がある。本質的に異なった符号化方式(例
えばマルチパルスとCELP)を切り換えて使用する場
合には、音色が変化するなど音質が不自然になりがちで
ある。また、パルスと雑音の切り替えでは、パルス使用
時の音質がパルシブになったりブザー的になったりしが
ちである。さらに、パルスと雑音を併用する方式では、
ビットレートを十分に低減できないという問題点があっ
た。
The above-mentioned proposed system has the following problems. When switching between essentially different encoding methods (for example, multi-pulse and CELP), the sound quality tends to be unnatural such as a change in tone color. Also, when switching between pulse and noise, the sound quality when using pulses tends to be pulsive or buzzer-like. Furthermore, in the method that uses both pulse and noise,
There is a problem that the bit rate cannot be reduced sufficiently.

【0006】本発明の目的は、低ビットレート化しても
音声の周期成分の再現性が高く、かつ音色の変化が目立
たない符号化方式を提供することである。
It is an object of the present invention to provide an encoding method in which the reproducibility of the periodic component of voice is high and the change of the tone color is not noticeable even if the bit rate is reduced.

【0007】[0007]

【課題を解決するための手段】上記目的を達成するた
め、本発明では以下の手段を有する。(1)パルス発生
器、(2)コードブックサイズが小さな第1の雑音コー
ドブック、(3)コードブックサイズが大きな第2の雑
音コードブック、(4)重み付け誤差評価部を有する。
また、本発明の別の実施例においては、(5)音響分類
器、(6)ピッチ抽出器、(7)パルス成分用適応コー
ドブック、(8)雑音成分用適応コードブックを有す
る。
In order to achieve the above object, the present invention has the following means. It has (1) a pulse generator, (2) a first noise codebook with a small codebook size, (3) a second noise codebook with a large codebook size, and (4) a weighting error evaluator.
Further, another embodiment of the present invention has (5) acoustic classifier, (6) pitch extractor, (7) pulse component adaptive codebook, and (8) noise component adaptive codebook.

【0008】[0008]

【作用】本発明の代表的な構成における作用を述べる。
符号器に入力された音声は、まずフレーム、及びサブフ
レームに分割される。短期予測分析部では、フレームご
とにスペクトルパラメータ(短期予測係数)が抽出さ
れ、量子化される。次に、聴覚重み付け誤差を評価する
ための準備として、入力音声に聴覚重み付けがなされ
る。また、重み付け合成フィルタにゼロ信号を入力し、
零入力応答を求め、重み付けられた入力信号から減算す
る。これは、合成フィルタの内部状態に依存する過去の
影響を取り除くためである。
The operation of the typical structure of the present invention will be described.
The voice input to the encoder is first divided into frames and subframes. The short-term prediction analysis unit extracts and quantizes the spectrum parameter (short-term prediction coefficient) for each frame. Next, the input speech is perceptually weighted in preparation for evaluating perceptual weighting errors. Also, input the zero signal to the weighting synthesis filter,
The quiescent response is determined and subtracted from the weighted input signal. This is to remove past effects that depend on the internal state of the synthesis filter.

【0009】次に長期予測分析部において、サブフレー
ム単位で、適応コードブックから最適な長期予測ラグと
利得を求める。適応コードブックはパルス成分用と雑音
成分用に分けられており、長期予測ラグの検索は最適な
利得による加重和によって得られる長期予測フィルタ成
分に対して行われる。
Next, the long-term prediction analysis unit obtains the optimum long-term prediction lag and gain from the adaptive codebook in subframe units. The adaptive codebook is divided into a pulse component and a noise component, and the long-term prediction lag is searched for the long-term prediction filter component obtained by the weighted sum with the optimum gain.

【0010】パルス発生器では、長期予測分析器で得ら
れた長期予測ラグをパルス間隔として、パルス位置を1
サンプルずつずらせて発生させ、重み付け合成フィルタ
のインパルス応答の畳み込みにより、重み付けする。こ
れらを長期予測ベクトルに対して直交化後、重み付け誤
差を最小化する位置にあるパルス音源を検索し、位置と
利得を決定する。
In the pulse generator, the pulse position is 1 with the long-term prediction lag obtained by the long-term prediction analyzer as the pulse interval.
It is generated by shifting each sample and weighted by convolving the impulse response of the weighting synthesis filter. After orthogonalizing these with respect to the long-term prediction vector, a pulse source located at a position where the weighting error is minimized is searched, and the position and the gain are determined.

【0011】第1のコードブック検索部では、第1の雑
音コードブックの中のコードベクトルを、上記パルス音
源と同様に重み付けする。長期予測ベクトルとパルス音
源ベクトルに対して直交化し、重み付け誤差を最小化す
るコードベクトルのコードと利得を決定する。
The first codebook search section weights the code vectors in the first noise codebook in the same manner as the pulse sound source. The code and gain of the code vector that minimizes the weighting error are determined by orthogonalizing the long-term prediction vector and the pulse source vector.

【0012】第2の雑音コードブックの検索は、パルス
音源の検索、及び、第1の雑音コードブックの検索と並
行して実行可能である。第2のコードブック検索部で
は、第2の雑音コードブックの中のコードベクトルを、
上記パルス音源と同様に重み付けする。長期予測ベクト
ルに対して直交化し、重み付け誤差を最小化するコード
ベクトルのコードと利得を決定する。
The search for the second noise codebook can be performed concurrently with the search for the pulse sound source and the search for the first noise codebook. In the second codebook search unit, the code vector in the second noise codebook is
Weighting is performed in the same manner as the pulse sound source. The code and gain of the code vector that is orthogonalized to the long-term prediction vector and minimizes the weighting error are determined.

【0013】選択器では、上記パルス音源と第1の雑音
音源を用いた場合と、第2の雑音音源のみを用いた場合
との重み付け誤差を評価し、誤差が小さい方を最終的な
音源として選択する。
The selector evaluates the weighting error between the case where the pulse sound source and the first noise sound source are used and the case where only the second noise sound source is used, and the smaller error is taken as the final sound source. select.

【0014】利得量子化部では、選択器によって選択さ
れた音源の利得を同時に最適化し、量子化する。
The gain quantizer simultaneously optimizes and quantizes the gains of the sound sources selected by the selector.

【0015】以上のようにして求められたスペクトルパ
ラメータや利得の量子化コード、長期予測ラグや選択さ
れたパルス音源の位置、雑音コードベクトルの指標が伝
送パラメータとして復号器へ伝送される。
The spectrum parameter, the quantized code of gain, the long-term prediction lag, the position of the selected pulse sound source, and the index of the noise code vector obtained as described above are transmitted to the decoder as transmission parameters.

【0016】復号器では、上記伝送パラメータから駆動
音源が計算され、短期予測係数をフィルタ係数とする合
成フィルタに入力されることによって、復号化音声が得
られる。
In the decoder, the driving sound source is calculated from the above transmission parameters and is input to the synthesis filter having the short-term prediction coefficient as a filter coefficient, whereby decoded speech is obtained.

【0017】また、本発明の別の構成においては、音響
分類を行うことによって、選択器における重み付け誤差
評価を制御することも可能である。さらに、ピッチ抽出
を行い、抽出されたピッチ周期をパルス音源のパルス間
隔とすることも可能である。
In another configuration of the present invention, it is also possible to control the weighting error evaluation in the selector by performing acoustic classification. Furthermore, it is also possible to perform pitch extraction and use the extracted pitch period as the pulse interval of the pulse sound source.

【0018】[0018]

【実施例】以下、図面を用いて本発明の実施例を説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0019】本発明は、符号駆動型音声符号化(CEL
P)方式に基づいているので、まずCELP方式の原理
について概要を説明する。CELP符号化では、音源の
周期性を表す成分として適応コードブックの出力である
長期予測ベクトルと、周期性以外の成分(ランダム性、
あるいは、雑音性)として雑音コードブック(統計コー
ドブックとも言う)の出力であるコードベクトルにそれ
ぞれの利得を乗じて加算した荷重和を駆動音源とする。
The present invention is directed to code driven speech coding (CEL).
Since it is based on the P) method, the outline of the principle of the CELP method will be described first. In CELP coding, a long-term prediction vector that is an output of an adaptive codebook as a component representing the periodicity of a sound source, and components other than the periodicity (randomness
Alternatively, the sum of weights obtained by multiplying the code vectors, which are the output of the noise codebook (also referred to as statistical codebook) as the noise characteristics, by the respective gains and adding them is used as the driving sound source.

【0020】最適な駆動音源を得るためのコードブック
の検索は次のようにしてなされる。一般に駆動音源を合
成フィルタに入力して得られる合成音声が、原音声(入
力音声)に一致するような駆動音源が得られれば良い
が、実際にはなんらかの誤差(量子化歪)を伴う。した
がってこの誤差を最小化するように駆動音源を決定すれ
ば良いことになるが、人間の聴覚特性は必ずしも誤差量
と音声の主観品質の対応が取れないことが知られてい
る。そこで聴覚特性との対応が良くなるように重み付け
した誤差を用いるのが一般的である。聴覚重み付けにつ
いては、例えば次の文献に記載されている。B. S. Atal
and J. R. Remde: "A new model of LPC excitation f
or producing natural-sounding speech at low bit ra
tes", Proc.ICASSP 82 (1982.5)。
The codebook search for obtaining the optimum driving sound source is performed as follows. Generally, it suffices to obtain a driving sound source in which the synthetic speech obtained by inputting the driving sound source to the synthesis filter matches the original speech (input speech), but in practice, some error (quantization distortion) is involved. Therefore, it is sufficient to determine the driving sound source so as to minimize this error, but it is known that the human auditory characteristics do not always correspond to the error amount and the subjective quality of the voice. Therefore, it is general to use an error weighted so that the correspondence with the auditory characteristics is improved. Hearing weighting is described in the following documents, for example. BS Atal
and JR Remde: "A new model of LPC excitation f
or producing natural-sounding speech at low bit ra
tes ", Proc. ICASSP 82 (1982.5).

【0021】この聴覚重み付け誤差を評価するために、
駆動音源は重み付け合成フィルタに入力され、重み付け
合成音声を得る。入力音声も重み付けフィルタを通して
重み付け入力音声を得、重み付け合成音声との差を取っ
て重み付け誤差波形を得る。重み付け誤差波形は、誤差
評価区間にわたって2乗和を計算され、重み付け2乗誤
差が得られる。前述のように駆動音源は長期予測ベクト
ルと雑音コードベクトルの荷重和であるから、駆動音源
の決定は、各コードブックからどのコードベクトルを選
択するかを決めるコードベクトル指標の決定に帰着す
る。すなわち、長期予測ラグとコードベクトル指標を順
次変えて重み付け2乗誤差を算出し、重み付け誤差が最
小となるものを選択すれば良い。このような駆動音源決
定法を「合成による分析」法と呼んでいる。上述の手順
を忠実に行う、すなわち毎回重み付け誤差を評価しなが
ら長期予測ラグと雑音コードベクトルの指標を同時に最
適化しようとすると、膨大な処理量となるため、実際に
は逐次最適化等の手法が用いられる。
To evaluate this perceptual weighting error,
The driving sound source is input to the weighting synthesis filter to obtain the weighted synthesis speech. The input speech is also obtained through the weighting filter to obtain the weighted input speech, and the difference from the weighted synthesized speech is obtained to obtain the weighted error waveform. For the weighted error waveform, the sum of squares is calculated over the error evaluation section, and the weighted squared error is obtained. Since the driving sound source is the weighted sum of the long-term predicted vector and the noise code vector as described above, the determination of the driving sound source results in the determination of the code vector index that determines which code vector is selected from each codebook. That is, the long-term prediction lag and the code vector index are sequentially changed to calculate the weighted squared error, and the one with the smallest weighting error may be selected. Such a driving sound source determination method is called a "synthesis analysis" method. If the above procedure is faithfully performed, that is, if the long-term prediction lag and the index of the noise code vector are optimized at the same time while evaluating the weighting error, a huge amount of processing is required. Is used.

【0022】本発明の第1の実施例の符号化部のブロッ
ク図を図1に、復号化部のブロック図を図2に示す。以
下、第1の実施例の動作の概要を説明する。
FIG. 1 shows a block diagram of an encoding unit according to the first embodiment of the present invention, and FIG. 2 shows a block diagram of a decoding unit. The outline of the operation of the first embodiment will be described below.

【0023】音声符号化部には、所定の標本化周波数
(通常8kHz)でA/D変換されたディジタル音声信
号11が入力される。音響分類器12は入力音声の音響
的特徴に基づいて入力音声を複数個のカテゴリー、例え
ば母音性や摩擦性等に分類する。音響分類結果は音響分
類フラッグ13として出力される。
The voice encoding unit receives the digital voice signal 11 A / D converted at a predetermined sampling frequency (usually 8 kHz). The sound classifier 12 classifies the input voice into a plurality of categories, such as vowel characteristics and frictional characteristics, based on the acoustic characteristics of the input voice. The sound classification result is output as the sound classification flag 13.

【0024】短期予測分析器(LPC分析器)17は分
析フレーム長の音声データ11を読みだし、短期予測係
数18を出力する。フレーム長は、例えば40ms(3
20サンプル)程度である。
The short-term prediction analyzer (LPC analyzer) 17 reads out the speech data 11 of the analysis frame length and outputs the short-term prediction coefficient 18. The frame length is, for example, 40 ms (3
20 samples).

【0025】短期予測係数18は、短期予測係数量子化
器19にて量子化される。量子化符号が短期予測係数量
子化指標21として、伝送パラメータとして出力され
る。また、短期予測係数の量子化値20が、次段以降の
処理で参照される。
The short-term prediction coefficient 18 is quantized by the short-term prediction coefficient quantizer 19. The quantized code is output as the transmission parameter as the short-term prediction coefficient quantization index 21. In addition, the quantized value 20 of the short-term prediction coefficient is referred to in the subsequent processing.

【0026】さらに、入力音声は聴覚重み付け器22で
重み付けられ、重み付け音声23が得られる。一方、重
み付け合成フィルタ24にフレーム長分の値が0の信号
(零入力)25を入力し、零入力応答26を得る。これ
を重み付け入力音声23から減算し、重み付け合成フィ
ルタの過去の内部状態の影響を取り除いた重み付け入力
音声27が得られる。
Further, the input voice is weighted by the auditory weighting device 22 to obtain a weighted voice 23. On the other hand, a signal (zero input) 25 having a value of 0 for the frame length is input to the weighting synthesis filter 24, and a zero input response 26 is obtained. This is subtracted from the weighted input voice 23 to obtain the weighted input voice 27 in which the influence of the past internal state of the weighting synthesis filter is removed.

【0027】長期予測分析は、サブフレームごとに適応
コードブックの検索によって実行されるので、以下では
適応コードブック検索と呼ぶ。ここで、サブフレーム長
は、例えば8ms(64サンプル)程度である。本発明
ではパルス成分用と、雑音成分用の二つの適応コードブ
ックを有しており、図面でも適応コードブック検索器3
1、34と示されている。後述のように、二つの適応コ
ードブックの状態を合成し、音声の周期性を表すパラメ
ータである長期予測ラグ37が抽出され、長期予測ラグ
の指標38と長期予測ベクトル41が出力される。
Since the long-term predictive analysis is performed by searching the adaptive codebook for each subframe, it will be referred to as adaptive codebook search hereinafter. Here, the subframe length is, for example, about 8 ms (64 samples). The present invention has two adaptive codebooks for the pulse component and the noise component, and the adaptive codebook searcher 3 is also shown in the drawing.
1, 34. As described later, the states of the two adaptive codebooks are combined, the long-term prediction lag 37 that is a parameter representing the periodicity of the speech is extracted, and the long-term prediction lag index 38 and the long-term prediction vector 41 are output.

【0028】パルス発生器42では、長期予測分析で得
られた長期予測ラグ37をパルス間隔として、パルス位
置を1サンプルずつずらせて発生させ、重み付け合成フ
ィルタのインパルス応答の畳み込みにより、重み付けす
る。これらを長期予測ベクトル41に対して直交化後、
重み付け誤差を最小化する位置にあるパルス音源を検索
し、位置44と利得43を決定する。選択されたパルス
成分の重み付けパルス音源ベクトル45が、第1の雑音
コードブック検索部46へ出力される。
In the pulse generator 42, the long-term prediction lag 37 obtained by the long-term prediction analysis is used as pulse intervals, the pulse positions are shifted by one sample, and the pulses are generated by weighting by convolution of the impulse response of the weighting synthesis filter. After orthogonalizing these with respect to the long-term prediction vector 41,
The pulse sound source located at the position where the weighting error is minimized is searched, and the position 44 and the gain 43 are determined. The weighted pulse excitation vector 45 of the selected pulse component is output to the first noise codebook search unit 46.

【0029】第1のコードブック検索部46では、第1
の雑音コードブックの中のコードベクトルを、上記パル
ス音源と同様に重み付けする。長期予測ベクトル41と
パルス音源ベクトル45に対して直交化し、重み付け誤
差を最小化するコードベクトルのコード48と利得47
を決定する。
In the first codebook search section 46,
The code vectors in the noise codebook of 1 are weighted in the same manner as the pulse source. The code 48 and the gain 47 of the code vector that minimizes the weighting error by orthogonalizing the long-term prediction vector 41 and the pulse sound source vector 45.
To decide.

【0030】第2の雑音コードブックの検索は、パルス
音源の検索、及び、第1の雑音コードブックの検索と並
行して実行可能である。第2のコードブック検索部56
では、第2の雑音コードブックの中のコードベクトル
を、上記パルス音源と同様に重み付けする。長期予測ベ
クトル41に対して直交化し、重み付け誤差を最小化す
るコードベクトルのコード52と利得51を決定する。
The search of the second noise codebook can be executed in parallel with the search of the pulse sound source and the search of the first noise codebook. Second codebook search unit 56
Then, the code vectors in the second noise codebook are weighted in the same manner as the pulse source. The code 52 and the gain 51 of the code vector that is orthogonalized to the long-term prediction vector 41 and minimizes the weighting error are determined.

【0031】選択器54では、上記パルス音源と第1の
雑音音源を用いた場合と、第2の雑音音源のみを用いた
場合との重み付け誤差を評価し、誤差が小さい方を最終
的な音源として選択し、それを音源選択フラッグ55と
して出力する。ここで、重み付け誤差は音響分類フラッ
グ13によって修正され、主観品質が良くなるような音
源が優先的に選択される。
The selector 54 evaluates the weighting error between the case where the pulse sound source and the first noise sound source are used and the case where only the second noise sound source is used, and the smaller error is the final sound source. Is output as a sound source selection flag 55. Here, the weighting error is corrected by the sound classification flag 13, and the sound source that improves the subjective quality is preferentially selected.

【0032】利得コードブック検索器56では、選択器
54によって選択された音源の利得を、利得コードブッ
クの検索により同時に最適化し、その時の量子化コード
57を出力する。
The gain codebook searcher 56 simultaneously optimizes the gains of the sound sources selected by the selector 54 by searching the gain codebook, and outputs the quantized code 57 at that time.

【0033】以上のようにして求められた短期予測係数
や利得の量子化コード21、57、長期予測ラグの指標
38や選択されたパルス音源の位置44、雑音コードベ
クトルの指標48,52及び音源選択フラッグ55が伝
送パラメータとして復号器へ伝送される。
Quantization codes 21, 57 of the short-term prediction coefficient and gain, the index 38 of the long-term prediction lag, the position 44 of the selected pulse sound source, the noise code vector indexes 48, 52, and the sound source obtained as described above. The selection flag 55 is transmitted as a transmission parameter to the decoder.

【0034】図2の音声復号部では、コードブック指標
38’、44’、48’、52’を用いて各コードブッ
ク61、65、77、81から各コードベクトル62、
66、78、82が読みだされ、また、パルス発生器7
3からパルス音源78が発生される。また、利得コード
ブック指標57’を用いて、利得コードブックから各利
得63、67、75、79、83が再生される。各コー
ドベクトルの各利得を乗じて駆動音源ベクトル89が生
成される。ただし、音源切り替えフラッグ55’に基づ
いて、切り替え器87によって、パルス音源と第1の雑
音音源、または、第2の雑音音源の一方が選択される。
In the speech decoding unit of FIG. 2, the codebooks 38 ', 44', 48 'and 52' are used to extract the codevectors 62 from the codebooks 61, 65, 77 and 81.
66, 78, 82 are read out and the pulse generator 7
3 produces a pulsed sound source 78. The gains 63, 67, 75, 79, 83 are reproduced from the gain codebook using the gain codebook index 57 '. The driving sound source vector 89 is generated by multiplying each gain of each code vector. However, one of the pulse sound source and the first noise sound source or the second noise sound source is selected by the switch 87 based on the sound source switching flag 55 ′.

【0035】上記駆動音源89を、短期予測係数21’
をフィルタ係数とする合成フィルタ93に入力されるこ
とによって、合成音声94が得られる。最後に主観的な
音質を向上させる目的で、合成音声94が適応ポストフ
ィルタ95に入力され、最終的な復号音声96が得られ
る。
The driving sound source 89 is converted into a short-term prediction coefficient 21 '.
By inputting it to the synthesis filter 93 having a filter coefficient of, a synthesized voice 94 is obtained. Finally, for the purpose of improving subjective sound quality, the synthesized speech 94 is input to the adaptive post filter 95, and the final decoded speech 96 is obtained.

【0036】復号音声(ディジタル信号)96はDA変
換され、アナログ音声に変換され、出力される。
The decoded voice (digital signal) 96 is DA converted, converted into analog voice, and output.

【0037】以上、概要を説明したので、次に第1の実
施例の主要部分の詳細な機能を説明する。
Now that the outline has been described, the detailed functions of the main parts of the first embodiment will be described.

【0038】音響分類器12はフレーム長、あるいはサ
ブフレーム長の音声データ11から物理的パラメータを
計算し、それらのパラメータ値の論理判定によって、そ
の区間の音声を複数個のカテゴリーに分類するものであ
る。音響分類方法自体は公知の技術であり、たとえば小
澤:”種々の音源を用いる4.8kb/sマルチパルス
音声符号化方式”、日本音響学会講演論文集(198
9.3)に一例が開示されている。音響分類器として構
成した場合の例は、(中研)受付番号31920044
8の特許に開示されている。物理パラメータとしては、
例えば、エネルギー、エネルギー変化率、最大相関値、
予測利得、対数断面積比等を用いる。音声のカテゴリー
としては、母音性、鼻音性、破裂・過渡性、摩擦性等に
分類したり、母音・鼻音性、立ち上がり、立ち下がりな
どに分類している。音響分類はフレーム単位、あるいは
サブフレーム単位で実行されるが、例えばエネルギー変
化率は、フレーム単位に算出する場合は前フレームのフ
レームエネルギーと現フレームのフレームエネルギーの
差、あるいはサブフレームごとのエネルギーの変化を算
出すれば良い。また、サブフレーム単位で算出する場合
は、隣接するサブフレームのエネルギー差、または、サ
ブフレームをさらに前後半に分割して、その各々のエネ
ルギーの差を検出すれば良い。
The acoustic classifier 12 calculates physical parameters from the voice data 11 of frame length or subframe length, and classifies the voice of the section into a plurality of categories by logically judging the parameter values. is there. The sound classification method itself is a known technique, for example, Ozawa: “4.8 kb / s multi-pulse speech coding method using various sound sources”, Proceedings of Acoustical Society of Japan (198).
An example is disclosed in 9.3). An example of the configuration as an acoustic classifier is (Chuken) reception number 31920044.
8 patents. As physical parameters,
For example, energy, energy change rate, maximum correlation value,
Predicted gain, logarithmic cross-sectional area ratio, etc. are used. The categories of voice are classified into vowels, nasal sounds, plosive / transient, frictional properties, and vowels / nasal sounds, rising and falling. Acoustic classification is performed in frame units or subframe units. For example, when calculating the energy change rate in frame units, the difference between the frame energy of the previous frame and the frame energy of the current frame or the energy of each subframe is calculated. The change may be calculated. Further, when the calculation is performed in units of subframes, the energy difference between adjacent subframes or the subframe is further divided into the first half and the second half, and the difference in energy of each may be detected.

【0039】短期予測分析器(LPC分析器)17は、
フレームごとに音声データ11から音声のスペクトル包
絡を表す短期予測係数18を抽出する。短期予測係数1
8は最も一般的には線形予測係数であるが、それから導
出される等価なパラメータである偏自己相関係数(PA
RCOR係数、反射係数)や線スペクトル対(LSPパ
ラメータ)に容易に変換される。
The short-term predictive analyzer (LPC analyzer) 17 is
The short-term prediction coefficient 18 representing the speech spectrum envelope is extracted from the speech data 11 for each frame. Short-term prediction coefficient 1
8 is most commonly a linear prediction coefficient, but is an equivalent parameter derived from it, the partial autocorrelation coefficient (PA
It is easily converted into RCOR coefficient, reflection coefficient) and line spectrum pair (LSP parameter).

【0040】線形予測係数の導出方法としては、Dur
bin・Levinsonの反復法(斎藤、中田著、
「音声情報処理の基礎」、オーム社、昭和56年に紹介
されている)が一般的であり、反射係数の導出方法は、
上記以外にもFLATアルゴリズム(電波システム開発
センター策定、「デジタル方式自動車電話システム標準
規格RCR STD−27」(以下、「RCR規格書」
と略す)に開示されている)やLeRoux法(斎藤、
中田著、前出書に記載)などが提案されている。また、
線形予測係数からLSPパラメータへの変換方法も、斎
藤、中田著の前出書に記載されている。
As a method of deriving the linear prediction coefficient, Dur
Bin-Levinson Iterative Method (Saito, Nakata,
"Basics of voice information processing", introduced by Ohmsha, Ltd. in 1981) is common, and the method of deriving the reflection coefficient is
In addition to the above, the FLAT algorithm (established by the Radio System Development Center, "Digital Car Telephone System Standard RCR STD-27" (hereinafter "RCR Standard")
Abbreviated) and the LeRoux method (Saito,
Nakata, described in the above-mentioned book) has been proposed. Also,
The conversion method from the linear prediction coefficient to the LSP parameter is also described in the above-mentioned book by Saito and Nakata.

【0041】線形予測係数18は本実施例ではLSPパ
ラメータに変換された後、量子化器19によって2段ベ
クトル量子化され、量子化値20に変換される。LSP
パラメータは線形予測係数を直接量子化するよりも量子
化特性が良い(同一のビット数で量子化しても、スペク
トル歪が小さい)ことが知られている。量子化方法は、
許容されるビット数によって、スカラー量子化やベクト
ル量子化、ベクトル・スカラー量子化が用いられること
もある。量子化指標21は伝送パラメータとして出力さ
れる。
In the present embodiment, the linear predictive coefficient 18 is converted into an LSP parameter, which is then subjected to a two-stage vector quantization by a quantizer 19 and converted into a quantized value 20. LSP
It is known that the parameter has a better quantization characteristic than that of directly quantizing a linear prediction coefficient (spectrum distortion is small even if quantized with the same number of bits). The quantization method is
Depending on the number of bits allowed, scalar quantization, vector quantization, or vector / scalar quantization may be used. The quantization index 21 is output as a transmission parameter.

【0042】次に聴覚重み付け誤差を計算するための前
処理について説明する。重み付け誤差を算出するため
に、まず入力音声11に聴覚重み付け部22において重
み付けがなされ、重み付け音声23を得る。重み付けフ
ィルタは短期予測係数(または等価なパラメータ)の量
子化値20から構成されるが、その具体形式は次の通り
である。
Next, preprocessing for calculating the perceptual weighting error will be described. In order to calculate the weighting error, the perceptual weighting unit 22 first weights the input voice 11 to obtain a weighted voice 23. The weighting filter is composed of the quantized value 20 of the short-term prediction coefficient (or an equivalent parameter), and its specific form is as follows.

【0043】[0043]

【数1】 [Equation 1]

【0044】ここにαiはフィルタ係数(線形予測係
数)、Npはフィルタ次数でたとえばNp=10、λは
重み付けパラメータで通常λ=0.8である。
Here, αi is a filter coefficient (linear prediction coefficient), Np is a filter order, for example, Np = 10, and λ is a weighting parameter, usually λ = 0.8.

【0045】一般に合成フィルタの出力は過去の状態の
影響を受けるが、ここでは演算量を削減するために、予
め重み付け音声23から過去の合成フィルタの影響を取
り除いておく。すなわち、重み付け合成フィルタ24に
フレーム長に相当する、値が0のデータ(零入力25)
を入力し、零入力応答26を計算し、重み付け音声23
から減算し、過去の影響を取り除いた重み付け音声27
を得る。ここで用いる重み付け合成フィルタ24の伝達
関数は次の通りである。
Generally, the output of the synthesis filter is influenced by the past state, but here, in order to reduce the amount of calculation, the influence of the past synthesis filter is removed from the weighted speech 23 in advance. That is, data having a value of 0 corresponding to the frame length in the weighting synthesis filter 24 (zero input 25)
, The zero input response 26 is calculated, and the weighted speech 23
Weighted speech 27 subtracted from
To get The transfer function of the weighting synthesis filter 24 used here is as follows.

【0046】[0046]

【数2】 [Equation 2]

【0047】この合成フィルタ24は重み付けパラメー
タλを含んでいる点が、復号側の合成フィルタと異なる
点である。
The synthesizing filter 24 is different from the synthesizing filter on the decoding side in that it includes the weighting parameter λ.

【0048】初めに説明したとおり、長期予測分析は適
応コードブックの検索とみなされ、合成波形と原音声と
の聴覚重み付け誤差の最小化によって長期予測ラグ(適
応コードブックの指標)が選択される。ここでは雑音コ
ードブックとは逐次的に検索する場合について説明す
る。すなわち、雑音コードブックの出力は0と仮定し
て、最適な長期予測ベクトル41を決定する。
As explained at the beginning, the long-term prediction analysis is regarded as a search of the adaptive codebook, and the long-term prediction lag (index of the adaptive codebook) is selected by minimizing the auditory weighting error between the synthetic waveform and the original speech. .. Here, a case where the noise codebook is sequentially searched will be described. That is, assuming that the output of the noise codebook is 0, the optimum long-term prediction vector 41 is determined.

【0049】本発明では、適応コードブックをパルス成
分用と雑音成分用の二つ有するため、コードブックの検
索は以下のようになる。重み付け2乗誤差は次式で定義
する。
Since the present invention has two adaptive codebooks for the pulse component and the noise component, the codebook search is as follows. The weighted squared error is defined by the following equation.

【0050】[0050]

【数3】 [Equation 3]

【0051】ここで、 bLP(n) :ラグLに対するパルス成分コードブックa
P(n)の出力 bLN(n) :ラグLに対する雑音成分コードブックaN(n)
の出力 b'LP(n):bLP(n)の重み付け合成音声 b'LN(n):bLN(n)の重み付け合成音声 βP :パルス成分の利得 βN :雑音成分の利得 p(n) :過去の影響を取り除いた重み付け入力音声 である。ただし、重み付け合成はコードブックの出力に
対し、重み付け合成フィルタのインパルス応答との畳み
込みによって実現する。このようにして得られた合成出
力は合成フィルタの過去の状態には依存しないので、零
状態応答と呼ばれる。(数3)をβP、βNで偏微分する
ことにより、最適な利得は、
Where b LP (n): pulse component codebook a for lag L
Output of P (n) b LN (n): Noise component codebook a N (n) for lag L
Output b 'LP (n): b LP (n) of the weighted synthesized speech b' LN (n): b LN (n) of the weighted synthesized speech beta P: gain of pulse component beta N: gain of the noise component p ( n): Weighted input speech with the past influence removed. However, the weighted synthesis is realized by convolving the output of the codebook with the impulse response of the weighted synthesis filter. The synthesized output thus obtained does not depend on the past states of the synthesis filter and is therefore called the zero-state response. By partially differentiating (Equation 3) with β P and β N , the optimum gain is

【0052】[0052]

【数4】 [Equation 4]

【0053】となり、この時の2乗誤差は、The squared error at this time is

【0054】[0054]

【数5】 [Equation 5]

【0055】となる。ただし、It becomes However,

【0056】[0056]

【数6】 [Equation 6]

【0057】である。よって、最適なラグLは、(数
5)の右辺代2項を最大化するようなラグを求めれば良
い。ただし、βP、βNが正となるもののみを対象とす
る。長期予測ベクトル41は、 b'L(n)=βPb'LP(n)+βNb'LN(n) となる。ただし、Lは最適なラグである。
It is Therefore, the optimum lag L may be a lag that maximizes the right-hand side two terms of (Equation 5). However, only those for which β P and β N are positive are targeted. The long-term prediction vector 41 becomes b ′ L (n) = β P b ′ LP (n) + β N b ′ LN (n). However, L is the optimum lag.

【0058】次に、パルス発生器42におけるパルス音
源の生成について説明する。パルス発生器42において
は、最適なラグLをパルス間隔とするパルス列cP(n)を
生成する。サブフレームにおける先頭のパルスの位置を
指標とすることによって、パルス列を一意に決定でき
る。サブフレームにおけるパルスの関係は、図3に示す
ように、ラグLとサブフレーム長Nとの関係によって、
二つのタイプに分けることができる。
Next, generation of a pulse sound source in the pulse generator 42 will be described. The pulse generator 42 generates a pulse train c P (n) having an optimum lag L as a pulse interval. The pulse train can be uniquely determined by using the position of the leading pulse in the subframe as an index. As shown in FIG. 3, the relationship between the pulses in the sub-frame depends on the relationship between the lag L and the sub-frame length N.
It can be divided into two types.

【0059】タイプ1は、Lmin≦L≦N−1の場合
で、サブフレーム内に複数本のパルスが存在する場合で
あり、L通りの配置がある。タイプ2は、N≦L≦L
maxの場合で、サブフレーム内には1本のパルスしかな
い。この時はN通りの配置がある。ただし、LminとL
maxはラグの検索範囲の最小値と最大値である。たとえ
ば、Lmin=20、Lmax=146、N=64とすると、
Lの値に応じて5ビットあるいは6ビットで全ての配置
を表すことができる。
Type 1 is a case where L min ≤L≤N-1 and there are a plurality of pulses in a subframe, and there are L arrangements. Type 2 is N ≦ L ≦ L
In case of max , there is only one pulse in a subframe. At this time, there are N arrangements. However, L min and L
max is the minimum value and the maximum value of the search range of lag. For example, if L min = 20, L max = 146, N = 64,
Depending on the value of L, all the arrangements can be represented by 5 bits or 6 bits.

【0060】次にパルス音源の検索について説明する。
生成したパルス音源cP(n)の重み付け合成音声をfP(n)
とすると、fP(n)をb'L(n)に対して直交化したf'P(n)
について
Next, the search for the pulse sound source will be described.
Generate the weighted synthesized speech of the generated pulse sound source c P (n) as f P (n)
Then, f P (n) is orthogonalized to b ′ L (n), and f ′ P (n)
about

【0061】[0061]

【数7】 [Equation 7]

【0062】を最小化するようなfP(n)を求める。な
お、直交化にはグラム・シュミットの直交化法等が用い
られる。
Find f P (n) that minimizes For the orthogonalization, the Gram-Schmidt orthogonalization method or the like is used.

【0063】次に、第1の雑音コードブック検索器46
における雑音音源(1)の検索について説明する。パル
ス音源と雑音音源(1)に割り当てられるビット数を合
計10ビットと仮定すると、ラグLの値に応じて、雑音
音源には5ビットまたは4ビット割り当てることができ
る。これはコードブックサイズが、5ビットまたは4ビ
ットの雑音コードブックの検索を行うことである。
Next, the first noise codebook search unit 46
The search for the noise source (1) in (1) will be described. Assuming that the total number of bits allocated to the pulse sound source and the noise sound source (1) is 10 bits, 5 bits or 4 bits can be allocated to the noise sound source depending on the value of the lag L. This is to search for a noise codebook whose codebook size is 5 bits or 4 bits.

【0064】fN1(n)を雑音コードベクトルcN1(n)の重
み付け合成音声とする。fN1(n)をb'L(n)とf'P(n)に
直交化させたベクトルをf'N1(n)とすると、f'N1(n)に
ついて
Let f N1 (n) be the weighted synthesized speech of the noise code vector c N1 (n). 'When N1 (n), f' f N1 and b 'L and f (n)' P the vector is orthogonal to the (n) (n) f For N1 (n)

【0065】[0065]

【数8】 [Equation 8]

【0066】を最小化するようなfN1(n)を求める。Find f N1 (n) that minimizes

【0067】次に、第2の雑音コードブック検索器50
における雑音音源(2)の検索について説明する。パル
ス音源と雑音音源(1)に割り当てられるビット数の合
計に等しい10ビットの雑音コードブックの検索を行う
ことになる。
Next, the second noise codebook search unit 50
The search for the noise source (2) in (1) will be described. A 10-bit noise codebook equal to the total number of bits assigned to the pulse sound source and the noise sound source (1) will be searched.

【0068】fN2(n)を雑音コードベクトルcN2(n)の重
み付け合成音声とする。fN2(n)をb'L(n)に直交化させ
たベクトルをf'N2(n)とすると、f'N2(n)について
Let f N2 (n) be the weighted synthesized speech of the noise code vector c N2 (n). When f N2 and b 'L vector was orthogonal to the (n) f' (n) and N2 (n), the f 'N2 (n)

【0069】[0069]

【数9】 [Equation 9]

【0070】を最小化するようなfN2(n)を求める。な
お、雑音コードブックはVSELP型の構造にしても良
い。このようにすることにより、通常のCELPに比べ
て、処理量を格段に低減することができる。VSELP
については、前出のRCR規格書に詳細に述べられてい
る。
Find f N2 (n) that minimizes The noise codebook may have a VSELP type structure. By doing so, it is possible to significantly reduce the processing amount as compared with the normal CELP. VSELP
Are described in detail in the RCR standard mentioned above.

【0071】次に、選択器54における音源の選択につ
いて説明する。基本的には、パルス音源と雑音音源
(1)を用いた場合の重み付け誤差と、雑音音源(2)
のみを用いた場合の重み付け誤差を比較し、誤差が小さ
くなる方の音源を選択することになる。選択器54の出
力は、音源選択フラッグ55である。
Next, selection of a sound source by the selector 54 will be described. Basically, the weighting error when using the pulse sound source and the noise sound source (1) and the noise sound source (2)
The weighting error in the case of using only is compared, and the sound source with the smaller error is selected. The output of the selector 54 is a sound source selection flag 55.

【0072】パルス音源と雑音音源(1)を用いた場合
の重み付け誤差は、次式の通りである。
The weighting error when the pulse sound source and the noise sound source (1) are used is as follows.

【0073】[0073]

【数10】 [Equation 10]

【0074】同様に、雑音音源(2)のみを用いた場合
の重み付け誤差は、次式の通りである。
Similarly, the weighting error when only the noise source (2) is used is as follows.

【0075】[0075]

【数11】 [Equation 11]

【0076】ここに、βP、βN、γP、γN1、γN2は利
得である。実際には、利得コードブック検索器56で利
得コードブックを検索し、その結果得られた量子化され
た利得を用いて(数10)と(数11)を評価すること
になる。
Here, β P , β N , γ P , γ N1 and γ N2 are gains. In reality, the gain codebook searcher 56 searches the gain codebook, and the quantized gains obtained as a result are used to evaluate (Equation 10) and (Equation 11).

【0077】ここで、音響分類結果の寄与について簡単
に触れておく。(数10)と(数11)の重み付け誤差
を評価した場合、利得の量子化等の影響で、選択される
音源が頻繁に切り替わることがありうる。このような場
合、主観品質が必ずしも良くならないことがある。例え
ば、母音の定常部などでは、多少重み付け誤差が悪くて
も一方に固定しておいた方がよい。このため、音響分類
結果に基づいて(数10)または(数11)の重み付け
誤差にバイアスを与えている。
Here, the contribution of the sound classification result will be briefly described. When the weighting errors of (Equation 10) and (Equation 11) are evaluated, it is possible that the selected sound source is frequently switched due to the effect of quantization of gain or the like. In such a case, the subjective quality may not necessarily be good. For example, in the stationary part of vowels, it is better to fix it to one side even if the weighting error is somewhat bad. Therefore, the weighting error of (Equation 10) or (Equation 11) is biased based on the sound classification result.

【0078】次に、適応コードブックの更新について説
明する。ここでは先ず、復号器におけるのと同じ駆動音
源を作成する。パルス音源と雑音音源(1)が選択され
た場合、駆動音源は次のようになる。
Next, updating of the adaptive codebook will be described. Here, first, the same driving sound source as in the decoder is created. When the pulse sound source and the noise sound source (1) are selected, the driving sound source is as follows.

【0079】ex1(n)=exP1(n)+exN1(n) ただし、 exP1(n)=βPLP(n)+γPP(n) exN1(n)=βNLN(n)+γN1N1(n) である。一方、雑音音源(2)が選択された場合の駆動
音源は、 ex2(n)=exP2(n)+exN2(n) ただし、 exP2(n)=βPLP(n) exN2(n)=βNLN(n)+γN2N2(n) である。
Ex 1 (n) = ex P1 (n) + ex N1 (n) where ex P1 (n) = β P b LP (n) + γ P c P (n) ex N1 (n) = β N b LN (n) + γ N1 c N1 (n). On the other hand, when the noise source (2) is selected, the driving source is ex 2 (n) = ex P2 (n) + ex N2 (n), where ex P2 (n) = β P b LP (n) ex N2 (n) = β N b LN (n) + γ N2 c N2 (n).

【0080】パルス成分用適応コードブックの更新は、
次の通りである。 aP(n)=aP(n+L) :−Lmax≦n<−N aP(n)=exPi(n+L):−N≦n<0 ただし、 i=1のとき、パルス音源と雑音音源(1)が選択され
た場合 i=2のとき、雑音音源(2)が選択された場合 である。
Updating the adaptive codebook for pulse components is
It is as follows. a P (n) = a P (n + L): −L max ≦ n <−N a P (n) = ex Pi (n + L): −N ≦ n <0 However, when i = 1, pulse source and noise When the sound source (1) is selected When i = 2, the noise source (2) is selected.

【0081】一方、雑音成分適応コードブックの更新
は、次の通りである。 aN(n)=aN(n+L) :−Lmax≦n<−N aN(n)=exNi(n+L):−N≦n<0 ただし、 i=1のとき、パルス音源と雑音音源(1)が選択され
た場合 i=2のとき、雑音音源(2)が選択された場合 である。
On the other hand, the noise component adaptive codebook is updated as follows. a N (n) = a N (n + L): −L max ≦ n <−N a N (n) = ex Ni (n + L): −N ≦ n <0 However, when i = 1, pulse source and noise When the sound source (1) is selected When i = 2, the noise source (2) is selected.

【0082】駆動音源の生成と、適応コードブックの更
新は、符号器と復号器でまったく同一である。
The generation of the driving excitation and the updating of the adaptive codebook are exactly the same in the encoder and the decoder.

【0083】次に図2に戻り、本実施例の復号化部につ
いて説明する。復号器は、概要で説明した通り、各指標
に基づいてコードブックを検索して得られたコードベク
トル、あるいはパルス音源に対し、復号された利得を乗
して加算することによって、駆動音源を求める。これを
線駅予測係数をフィルタ係数とする合成フィルタに入力
することによって、合成音を得る。
Next, returning to FIG. 2, the decoding unit of this embodiment will be described. As described in the overview, the decoder obtains the driving sound source by multiplying the code vector obtained by searching the codebook based on each index or the pulsed sound source with the decoded gain and adding it. .. By inputting this into a synthesis filter having a line station prediction coefficient as a filter coefficient, a synthetic sound is obtained.

【0084】実際の音源は、音源選択フラッグに基づい
て切り替えられる。詳細は、符号器の説明を参照された
い。
The actual sound source is switched based on the sound source selection flag. For details, refer to the description of the encoder.

【0085】本実施例によれば、低ビットレートのCE
LP符号器においても周期成分の再現性が向上し、高品
質化が図れる。
According to this embodiment, the CE having a low bit rate is used.
Also in the LP encoder, the reproducibility of the periodic component is improved and the quality can be improved.

【0086】次に、本発明の第2の実施例について説明
する。図4に本実施例の音声符号器のブロック図を示
す。本実施例は、音響分類器を用いない場合を示してお
り、選択器54では、(数10)と(数11)の重み付
け誤差の比較のみで音源を選択する。音声復号器は、第
1の実施例のものと同一である。本実施例では、音響分
類を行わないので、第1に実施例に比較して、処理量を
低減できる。
Next, a second embodiment of the present invention will be described. FIG. 4 shows a block diagram of the speech coder of this embodiment. This embodiment shows a case where the acoustic classifier is not used, and the selector 54 selects a sound source only by comparing the weighting errors of (Equation 10) and (Equation 11). The speech decoder is the same as that of the first embodiment. Since sound classification is not performed in this embodiment, the processing amount can be reduced compared to the first embodiment.

【0087】次に、本発明の第3の実施例について説明
する。図5に本実施例の音声符号器のブロック図を示
す。本実施例ではピッチ抽出器14を具備し、入力音声
11のピッチ周期を抽出し、その値15と符号16を出
力する。ピッチ周期15は、パルス発生器42におい
て、生成するパルス間隔を規定する。すなわち、第1の
実施例では、パルス間隔は長期予測ラグに一致するよう
に決定されていたが、本実施例ではパルス間隔はピッチ
周期に一致する。
Next, a third embodiment of the present invention will be described. FIG. 5 shows a block diagram of the speech coder of this embodiment. In the present embodiment, the pitch extractor 14 is provided to extract the pitch period of the input speech 11 and output the value 15 and the code 16. The pitch period 15 defines the pulse interval generated by the pulse generator 42. That is, in the first embodiment, the pulse interval is determined to match the long-term prediction lag, but in the present embodiment, the pulse interval matches the pitch period.

【0088】ピッチ周期の符号16は、伝送パラメータ
として復号器へ伝送される。
The code 16 of the pitch period is transmitted to the decoder as a transmission parameter.

【0089】図6に本実施例の復号器のブロック図を示
す。第1の実施例の復号器との違いは、ピッチ周期の符
号からパルス音源のパルス間隔を決定する点である。本
実施例では、ピッチ周期という音声の物理現象を反映し
たパルスが生成されることで、音声品質が一層向上す
る。
FIG. 6 shows a block diagram of the decoder of this embodiment. The difference from the decoder of the first embodiment is that the pulse interval of the pulse sound source is determined from the code of the pitch period. In the present embodiment, the voice quality is further improved by generating the pulse reflecting the physical phenomenon of the voice called the pitch period.

【0090】次に、本発明の第4の実施例について説明
する。図7に本実施例の音声符号器のブロック図を示
す。本実施例では、第3の実施例と同様に、ピッチ抽出
器14を具備するが、ピッチ周期15をパルス発生器4
2におけるパルス間隔に直接反映させないことに特徴が
ある。本実施例では、ピッチ周期15は長期予測ラグの
選択に影響を与える。すなわち、第1の実施例では長期
予測ラグは(数5)のEを最小化するものとして決定さ
れたが、本実施例では、検索されるラグLがピッチ周期
15に近い場合にはEの値を一定の割合で下げるように
バイアスをかける。このようにすると、通常はピッチ周
期の整数倍の値をランダムにとりやすかった長期予測ラ
グが、ピッチ周期と一致する比率が高くなり、長期予測
ラグの連続性が向上する。
Next, a fourth embodiment of the present invention will be described. FIG. 7 shows a block diagram of the speech coder of this embodiment. In the present embodiment, the pitch extractor 14 is provided as in the third embodiment, but the pitch period 15 is set to the pulse generator 4.
The feature is that it is not directly reflected in the pulse interval in 2. In this example, pitch period 15 affects the choice of long-term predicted lag. That is, in the first embodiment, the long-term predicted lag is determined to minimize E of (Equation 5), but in the present embodiment, when the searched lag L is close to the pitch period 15, E of E is calculated. Bias to lower the value at a constant rate. By doing so, the long-term prediction lag, which is normally easy to randomly take a value that is an integral multiple of the pitch period, has a high rate of matching with the pitch period, and the continuity of the long-term prediction lag is improved.

【0091】さらに、パルス発生器42におけるパルス
間隔は、第1の実施例同様、長期予測ラグに一致するの
で、ピッチ周期の指標を伝送する必要がない。なお、音
声復号器は、第1の実施例の復号器と同一である。
Further, since the pulse interval in the pulse generator 42 matches the long-term prediction lag as in the first embodiment, it is not necessary to transmit the pitch period index. The audio decoder is the same as the decoder of the first embodiment.

【0092】本実施例によれば、長期予測ラグの連続性
が改善され、同時にパルス音源のパルス間隔も音声の物
理的特徴を反映するようになるので、音声品質の改善が
図れる。
According to this embodiment, the continuity of the long-term prediction lag is improved, and at the same time, the pulse interval of the pulse sound source also reflects the physical characteristics of the voice, so that the voice quality can be improved.

【0093】次に、本発明の第5の実施例について説明
する。図8は本実施例の音声符号器のブロック図であ
る。これまでの実施例との違いは、適応コードブック3
9がパルス成分用と雑音成分用に分離されておらず、一
つだけであるという点である。これに対応して、図9に
示した音声復号器にも適応コードブック69も一つだけ
である。このようにすることで、長期予測ラグの検索
や、更新の処理量の低減が図れる。低処理量での実現が
望まれるときに、本実施例は有効である。
Next, a fifth embodiment of the present invention will be described. FIG. 8 is a block diagram of the speech coder of this embodiment. The difference from the previous embodiments is that the adaptive codebook 3
9 is not separated for the pulse component and the noise component, and there is only one. Correspondingly, there is only one speech decoder and one adaptive codebook 69 shown in FIG. By doing so, it is possible to search for the long-term prediction lag and reduce the update processing amount. This embodiment is effective when it is desired to realize a low throughput.

【0094】[0094]

【発明の効果】本発明によれば、CELP符号器を低ビ
ットレート化したときに問題となる周期成分の再現性が
改善されるため、4kbps以下のビットレートでも良
好な音声品質の音声符号器を提供できる。
According to the present invention, the reproducibility of the periodic component which is a problem when the CELP encoder is made to have a low bit rate is improved, so that the speech encoder having a good voice quality even at a bit rate of 4 kbps or less. Can be provided.

【0095】[0095]

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例の符号化部のブロック図
である。
FIG. 1 is a block diagram of an encoding unit according to a first embodiment of this invention.

【図2】本発明の第1の実施例の復号化部のブロック図
である。
FIG. 2 is a block diagram of a decoding unit according to the first embodiment of this invention.

【図3】パルス音源発生の原理説明図である。FIG. 3 is an explanatory diagram of the principle of pulse sound source generation.

【図4】本発明の第2の実施例の符号化部のブロック図
である。
FIG. 4 is a block diagram of an encoding unit according to a second embodiment of the present invention.

【図5】本発明の第3の実施例の符号化部のブロック図
である。
FIG. 5 is a block diagram of an encoding unit according to a third embodiment of the present invention.

【図6】本発明の第3の実施例の復号化部のブロック図
である。
FIG. 6 is a block diagram of a decoding unit according to a third embodiment of the present invention.

【図7】本発明の第4の実施例の符号化部のブロック図
である。
FIG. 7 is a block diagram of an encoding unit according to a fourth embodiment of the present invention.

【図8】本発明の第5の実施例の符号化部のブロック図
である。
FIG. 8 is a block diagram of an encoding unit according to a fifth embodiment of the present invention.

【図9】本発明の第5の実施例の復号化部のブロック図
である。
FIG. 9 is a block diagram of a decoding unit according to a fifth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

12…音響分類器、 14…ピッチ抽出器、 17…聴覚重み付け器、 24…重み付け合成フィルタ、 31,61…雑音成分適応コードブック検索器、 34,65…パルス成分適応コードブック検索器、 39…適応コードブック検索器、 42…パルス発生器、 46…第1の雑音コードブック検索器、 50…第2の雑音コードブック検索器、 54…音源選択器、 56…利得コードブック検索器、 58…多重化装置、 59…伝送路、 60…多重分離装置、 69…適応コードブック、 73…パルス発生器、 77…第1の雑音コードブック、 81…第2の雑音コードブック、 87…音源切り替え器, 93…合成フィルタ、 95…適応ポストフィルタ、 97…利得コードブック。 12 ... Acoustic classifier, 14 ... Pitch extractor, 17 ... Auditory weighter, 24 ... Weighting synthesis filter, 31, 61 ... Noise component adaptive codebook searcher, 34, 65 ... Pulse component adaptive codebook searcher, 39 ... Adaptive codebook searcher, 42 ... Pulse generator, 46 ... First noise codebook searcher, 50 ... Second noise codebook searcher, 54 ... Sound source selector, 56 ... Gain codebook searcher, 58 ... Multiplexing device, 59 ... Transmission line, 60 ... Demultiplexing device, 69 ... Adaptive codebook, 73 ... Pulse generator, 77 ... First noise codebook, 81 ... Second noise codebook, 87 ... Sound source switching device , 93 ... Synthesis filter, 95 ... Adaptive post filter, 97 ... Gain codebook.

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】複数の音源を切り替えて使用する符号駆動
線形予測(CELP)符号化方式において、前記音源の
少なくとも一つはパルス成分と雑音成分を重畳させたも
のであり、前記パルス成分のパルスの位置と利得は、前
記雑音成分の雑音ベクトルとは独立に設定することを特
徴とする音声符号化方法。
1. A code-driven linear prediction (CELP) coding method in which a plurality of sound sources are switched and used, wherein at least one of the sound sources is a combination of a pulse component and a noise component, and a pulse of the pulse component. The position and the gain are set independently of the noise vector of the noise component.
【請求項2】前記音源の切り替えは、符号化対象区間内
の重み付け誤差の評価によって決定することを特徴とす
る請求項1に記載の音声符号化方法。
2. The speech coding method according to claim 1, wherein the switching of the sound sources is determined by evaluating a weighting error in a coding target section.
【請求項3】前記音声符号化方法は、入力音声を該音声
の音響的特徴に基づいて分類する音響分類器を具備し、
該音響分類器の分類結果を前記重み付け誤差の評価に反
映させることを特徴とする請求項2に記載の音声符号化
方法。
3. The speech coding method comprises an acoustic classifier for classifying an input speech based on acoustic characteristics of the speech.
The speech coding method according to claim 2, wherein the classification result of the acoustic classifier is reflected in the evaluation of the weighting error.
【請求項4】前記パルス成分のパルスの間隔は、前記符
号化対象区間内では長期予測ラグに一致させ、前記パル
ス成分の1番目のパルスの位置を前記符号化対象区間の
先頭からの位置で定義し、指標とすることを特徴とする
請求項1に記載の音声符号化方法。
4. The pulse interval of the pulse component is made to coincide with a long-term prediction lag within the coding target section, and the position of the first pulse of the pulse component is set at a position from the beginning of the coding target section. The audio encoding method according to claim 1, wherein the audio encoding method is defined and used as an index.
【請求項5】前記音声符号化方法は、入力音声のピッチ
周期を抽出するピッチ抽出器を具備し、前記パルス成分
のパルスの間隔は、前記ピッチ抽出器によって抽出され
たピッチ周期に一致させ、前記パルス成分の1番目のパ
ルスの位置を前記符号化対象区間の先頭からの位置で定
義し、指標とすることを特徴とする請求項1から請求項
4のいずれかに記載の音声符号化方法。
5. The voice encoding method comprises a pitch extractor for extracting a pitch period of an input voice, wherein a pulse interval of the pulse component is matched with a pitch period extracted by the pitch extractor, 5. The speech coding method according to claim 1, wherein the position of the first pulse of the pulse component is defined as a position from the beginning of the coding target section and is used as an index. ..
【請求項6】前記音声符号化方法は、入力音声のピッチ
周期を抽出するピッチ抽出器を具備し、該ピッチ抽出器
の出力を長期予測ラグの決定に反映させることを特徴と
する請求項4に記載の音声符号化方法。
6. The speech coding method according to claim 4, further comprising a pitch extractor for extracting the pitch period of the input speech, and the output of the pitch extractor is reflected in the determination of the long-term prediction lag. The audio encoding method described in.
【請求項7】前記音声符号化方法は、パルス成分用適応
コードブックと雑音成分用適応コードブックを具備し、
前記長期予測ラグの検索は、前記パルス成分用適応コー
ドブックの利得と前記雑音成分用適応コードブックの利
得を最適化して合成した長期予測フィルタ成分に対して
行うことを特徴とする請求項1から請求項6のいずれか
に記載の音声符号化方法。
7. The speech encoding method comprises an adaptive codebook for pulse components and an adaptive codebook for noise components,
2. The search for the long-term prediction lag is performed for a long-term prediction filter component synthesized by optimizing the gain of the adaptive codebook for pulse components and the gain of the adaptive codebook for noise components. The audio encoding method according to claim 6.
JP4073683A 1992-03-30 1992-03-30 Voice encoding method Pending JPH05273999A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4073683A JPH05273999A (en) 1992-03-30 1992-03-30 Voice encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4073683A JPH05273999A (en) 1992-03-30 1992-03-30 Voice encoding method

Publications (1)

Publication Number Publication Date
JPH05273999A true JPH05273999A (en) 1993-10-22

Family

ID=13525263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4073683A Pending JPH05273999A (en) 1992-03-30 1992-03-30 Voice encoding method

Country Status (1)

Country Link
JP (1) JPH05273999A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876800A (en) * 1994-09-08 1996-03-22 Nec Corp Voice coding device
WO1998040877A1 (en) * 1997-03-12 1998-09-17 Mitsubishi Denki Kabushiki Kaisha Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
WO2002054386A1 (en) * 2000-12-26 2002-07-11 Mitsubishi Denki Kabushiki Kaisha Voice encoding system, and voice encoding method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876800A (en) * 1994-09-08 1996-03-22 Nec Corp Voice coding device
WO1998040877A1 (en) * 1997-03-12 1998-09-17 Mitsubishi Denki Kabushiki Kaisha Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
US6408268B1 (en) 1997-03-12 2002-06-18 Mitsubishi Denki Kabushiki Kaisha Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
WO2002054386A1 (en) * 2000-12-26 2002-07-11 Mitsubishi Denki Kabushiki Kaisha Voice encoding system, and voice encoding method
US7454328B2 (en) 2000-12-26 2008-11-18 Mitsubishi Denki Kabushiki Kaisha Speech encoding system, and speech encoding method

Similar Documents

Publication Publication Date Title
US9852740B2 (en) Method for speech coding, method for speech decoding and their apparatuses
KR100264863B1 (en) Method for speech coding based on a celp model
JPH10187197A (en) Voice coding method and device executing the method
US6094630A (en) Sequential searching speech coding device
JPH08272395A (en) Voice encoding device
JP2000163096A (en) Speech coding method and speech coding device
JP2002268686A (en) Voice coder and voice decoder
JPH05265496A (en) Speech encoding method with plural code books
JP3308764B2 (en) Audio coding device
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JPH05273999A (en) Voice encoding method
JP3232701B2 (en) Audio coding method
JP3319396B2 (en) Speech encoder and speech encoder / decoder
JP3232728B2 (en) Audio coding method
JP3552201B2 (en) Voice encoding method and apparatus
JP3192051B2 (en) Audio coding device
JP3350340B2 (en) Voice coding method and voice decoding method
JPH08160996A (en) Voice encoding device
JPH0511799A (en) Voice coding system
JPH0830298A (en) Voice coder
Moriya et al. Pitch Synchronous Innovation CELP (PSI-CELP)
JPH0455899A (en) Voice signal coding system
Ozawa A 4.8 kb/s high-quality speech coding using various types of excitation signals.
KR19980031894A (en) Quantization of Line Spectral Pair Coefficients in Speech Coding
JPH06222795A (en) Code excitation linear predictive encoding system