JP3232701B2 - Audio coding method - Google Patents

Audio coding method

Info

Publication number
JP3232701B2
JP3232701B2 JP27699192A JP27699192A JP3232701B2 JP 3232701 B2 JP3232701 B2 JP 3232701B2 JP 27699192 A JP27699192 A JP 27699192A JP 27699192 A JP27699192 A JP 27699192A JP 3232701 B2 JP3232701 B2 JP 3232701B2
Authority
JP
Japan
Prior art keywords
pulse
speech
term prediction
sound source
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27699192A
Other languages
Japanese (ja)
Other versions
JPH06130994A (en
Inventor
英敏 関根
吉章 淺川
卓 ▲高▼島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP27699192A priority Critical patent/JP3232701B2/en
Publication of JPH06130994A publication Critical patent/JPH06130994A/en
Application granted granted Critical
Publication of JP3232701B2 publication Critical patent/JP3232701B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、低ビットレートで高品
質な合成音声を得るに好適な音声符号化方法に関し、特
に比較的少ない処理量で4kbps以下のビットレート
に適用できる音声符号化方法に係る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech coding method suitable for obtaining high-quality synthesized speech at a low bit rate, and more particularly to a speech coding method applicable to bit rates of 4 kbps or less with a relatively small processing amount. According to.

【0002】[0002]

【従来の技術】合成音声と原音声の重み付き誤差を評価
し、その誤差を最小化するように符号化パラメータを決
定する、「合成による分析」手法を取り入れた音声符号
化方式が最近提案され、低ビットレートにおいても比較
的良好な音声品質を得ることに成功している。代表的な
ものとして符号駆動線形予測符号化(CELP)方式
(例えば、M. R. Schroeder and B. S. Atal: "Code-ex
cited linear prediction(CELP)", Proc. ICASSP 85 (1
985.3))があり、4.8kbpsで実用的な音声品質を
達成している。また、CELP方式の改良方式も多数提
案されており、例えばベクトル和駆動線形予測符号化
(VSELP)方式(例えば、I. A. Gersonand M. A.
Jasiuk: "Vector sum excited linear prediction (VSE
LP) speechcoding at 8kbps", Proc. ICASSP 90 (1990.
4))は、処理量やメモリ容量、ビット誤り耐性の点で優
れている。
2. Description of the Related Art Recently, a speech coding system incorporating an "analysis by synthesis" technique for evaluating a weighted error between a synthesized speech and an original speech and determining a coding parameter so as to minimize the error has been proposed. Has succeeded in obtaining relatively good voice quality even at low bit rates. A typical example is a code-driven linear predictive coding (CELP) scheme (for example, MR Schroeder and BS Atal: "Code-ex
cited linear prediction (CELP) ", Proc. ICASSP 85 (1
985.3)) and achieves practical voice quality at 4.8 kbps. Also, a number of improved CELP schemes have been proposed, such as a vector sum driven linear predictive coding (VSELP) scheme (for example, IA Gersonand MA).
Jasiuk: "Vector sum excited linear prediction (VSE
LP) speechcoding at 8kbps ", Proc. ICASSP 90 (1990.
4)) is superior in terms of processing amount, memory capacity, and bit error resistance.

【0003】一方、移動無線通信のディジタル化が本格
化し、周波数の有効活用の観点から、より低ビットレー
ト(4kbps以下)の音声符号化方式の開発が望まれ
ている。CELPやVSELPを単純に低ビットレート
化しようとすると、品質劣化が大きくなり、限界があ
る。これは適応コードブック検索による長期予測精度が
低下し、周期成分の再現性が低下する結果、復号音声の
雑音感が強くなるためである。そこで、従来の統計音源
(雑音性音源)の他に、パルス音源を導入し、周期性の
再現性を高める方式が提案されている。
[0003] On the other hand, digitalization of mobile radio communication is in full swing, and from the viewpoint of effective use of frequency, development of a voice coding system with a lower bit rate (4 kbps or less) is desired. If the bit rate of CELP or VSELP is simply reduced, quality degradation is increased and there is a limit. This is because the long-term prediction accuracy by the adaptive codebook search is reduced, and the reproducibility of the periodic component is reduced. As a result, the sense of noise in the decoded speech is increased. Therefore, a method has been proposed in which a pulsed sound source is introduced in addition to the conventional statistical sound source (noise source) to improve the reproducibility of the periodicity.

【0004】このような方式としては、有声音では位相
と振幅を制御したシングルパルス、無声音ではCELP
を用いる「SPE−CELP」方式(W. Granzow and
B. S.Atal: "High-quality digital speech at 4 kb/
s", Proc. GLOBECOM 90 (1990.12))や、周期パルスと
雑音を切り替えて使用する「パルス/雑音選択型CEL
P」方式(吉田、他2:”低ビットレートCELP符号
化へのパルス音源探索の適用”、信学技報 SP91−
68(1991.10)、あるいは、田中、板倉:”C
ELP音声符号化方式におけるパルス音源導入による音
声品質の向上”、信学技報 EA92−24(199
2.5))等がある。
[0004] As such a system, for voiced sounds, a single pulse whose phase and amplitude are controlled, and for unvoiced sounds, CELP is used.
“SPE-CELP” method using WWW (Granzow and
BSAtal: "High-quality digital speech at 4 kb /
s ", Proc. GLOBECOM 90 (1990.12)) or" Pulse / Noise Selective CEL, which switches between periodic pulse and noise.
P "method (Yoshida et al. 2:" Application of pulse excitation search to low bit rate CELP coding ", IEICE Tech.
68 (1991.10), or Tanaka and Itakura: "C
Improvement of Speech Quality by Introducing Pulse Sound Source in ELP Speech Coding Method ", IEICE Technical Report EA92-24 (199)
2.5)).

【0005】[0005]

【発明が解決しようとする課題】上記パルス音源を使用
した音声符号化方式は、従来方式に比べると低ビットレ
ート化しても周期成分の再現性の向上が図れるが、次の
ような問題がある。
The speech coding method using the above-mentioned pulse sound source can improve the reproducibility of the periodic component even if the bit rate is reduced as compared with the conventional method, but has the following problems. .

【0006】「SPE−CELP」方式は1ピッチ周期
あたり1本のパルスしか用いないため、その位置や振幅
が音声品質に極めて大きな影響を与える。パルス位置の
決め方はかなり複雑で、入力音声信号に対するロバスト
性に問題がある。また、符号化音声がブザー的になる場
合があるとの報告もある。
[0006] Since the "SPE-CELP" system uses only one pulse per pitch period, its position and amplitude have a great influence on voice quality. The method of determining the pulse position is quite complicated, and has a problem in robustness to an input audio signal. There is also a report that coded speech may be buzzer-like.

【0007】一方、「パルス/雑音選択型CELP」方
式は、パルス音源と雑音音源を個別に用いたときの誤差
を評価し、誤差の小さい方の音源を選択したり、入力音
声の有声無声判定により使用する音源を選択したりす
る。これらの方法では長期予測(適応コードブック検
索)を併用するので、パルス音源は長期予測ベクトルを
補完する意味合いが強い。しかし、上記の文献ではパル
ス間隔を長期予測ラグ、またはピッチ周期に限定してい
るため、十分な音声品質が得られていないという問題が
ある。
[0007] On the other hand, the "pulse / noise selection type CELP" system evaluates an error when a pulse sound source and a noise sound source are separately used, selects a sound source having a smaller error, and determines voiced / unvoiced input voice. To select the sound source to use. In these methods, since long-term prediction (adaptive codebook search) is used together, the pulse sound source has a strong meaning to complement the long-term prediction vector. However, in the above document, since the pulse interval is limited to the long-term prediction lag or the pitch period, there is a problem that sufficient voice quality is not obtained.

【0008】また、「SPE−CELP」方式も「パル
ス/雑音選択型CELP」方式もパルス音源と雑音音源
との切り替えを行っているため、符号化音声に、音源の
切り替えに起因する音色の変化(不連続感)があるとい
う問題もある。
[0008] Further, since both the "SPE-CELP" system and the "pulse / noise selection type CELP" system switch between a pulse sound source and a noise sound source, a change in timbre due to the sound source switching occurs in the coded speech. There is also a problem of (discontinuity).

【0009】本発明の第1の目的は、低ビットレート化
しても音声品質の劣化が少なく、かつ音色の変化が目立
たない符号化方式を提供することである。また、本発明
の第2の目的は、比較的低処理量で第1の目的を実現す
ることである。
A first object of the present invention is to provide a coding system in which the voice quality is less deteriorated even when the bit rate is reduced, and the change in timbre is not conspicuous. Further, a second object of the present invention is to realize the first object with a relatively low processing amount.

【0010】[0010]

【課題を解決するための手段】上記目的を達成するた
め、本発明では通常のCELPの構成のうち、統計コー
ドブック及びその検索手段の代わりに、以下の手段を有
する。(1)パルス情報コードブック、(2)パルス発
生手段、(3)パルス音源検索手段。
In order to achieve the above object, the present invention has the following means in place of the statistical codebook and its search means in the structure of a normal CELP. (1) pulse information codebook, (2) pulse generation means, and (3) pulse sound source search means.

【0011】[0011]

【作用】本発明の代表的な構成における作用を述べる。The operation of the representative configuration of the present invention will be described.

【0012】音声符号器に入力された音声は、まずフレ
ーム、およびサブフレームに分割される。短期予測分析
部では、フレームごとにスペクトルパラメータ(短期予
測係数)が抽出され、量子化される。次に、聴覚重み付
け誤差を評価するための準備として、入力音声に聴覚重
み付けがなされる。また、重み付け合成フィルタにゼロ
信号を入力し、零入力応答を求め、重み付けられた入力
信号から減算する。これは、合成フィルタの内部状態に
依存する過去の影響を取り除くためである。さらに、重
み付け合成フィルタのインパルス応答も計算しておく。
The speech input to the speech encoder is first divided into frames and subframes. In the short-term prediction analysis unit, a spectrum parameter (short-term prediction coefficient) is extracted and quantized for each frame. Next, as preparation for evaluating the hearing weighting error, the input speech is subjected to hearing weighting. Also, a zero signal is input to the weighting synthesis filter, a zero input response is obtained, and the response is subtracted from the weighted input signal. This is to remove a past effect that depends on the internal state of the synthesis filter. Further, the impulse response of the weighting synthesis filter is calculated.

【0013】次に長期予測分析部において、サブフレー
ム単位で、適応コードブックから最適な長期予測ラグと
利得を求める。重み付けられた入力信号から零入力応答
を減算した信号から、さらに利得を乗じた重み付け長期
予測ベクトルを差し引いた信号を作製し、パルス音源検
索部に入力する。
Next, in the long-term prediction analysis unit, an optimum long-term prediction lag and gain are obtained from the adaptive codebook in subframe units. From the signal obtained by subtracting the zero input response from the weighted input signal, a signal is generated by subtracting a weighted long-term prediction vector further multiplied by a gain, and is input to the pulse sound source search unit.

【0014】パルス音源の検索では、まずパルス情報コ
ードブックからパルス間隔と先頭パルス位置の情報を読
みだし、パルス発生部でパルス列を発生させる。このパ
ルス列を音源ベクトルとみなし、重み付け合成フィルタ
のインパルス応答の畳み込みにより、重み付けする。こ
れらの重み付けベクトルに対して重み付け誤差を順次評
価し、誤差を最小化するパルス音源ベクトルと利得を決
定する。
In searching for a pulse sound source, first, information on a pulse interval and a leading pulse position is read from a pulse information codebook, and a pulse generator generates a pulse train. This pulse train is regarded as a sound source vector, and weighting is performed by convolution of the impulse response of the weighting synthesis filter. A weighting error is sequentially evaluated for these weighting vectors, and a pulse excitation vector and a gain that minimize the error are determined.

【0015】利得量子化部では、長期予測ベクトルとパ
ルス音源の利得を同時に最適化し、量子化する。
The gain quantization unit simultaneously optimizes and quantizes the long-term prediction vector and the gain of the pulse sound source.

【0016】以上のようにして求められたスペクトルパ
ラメータや利得の量子化コード、長期予測ラグや選択さ
れたパルス音源コードベクトルの指標が伝送パラメータ
として復号器へ伝送される。
The spectral parameter, gain quantization code, long-term prediction lag, and index of the selected pulse excitation code vector determined as described above are transmitted to the decoder as transmission parameters.

【0017】復号器では、上記伝送パラメータから駆動
音源が計算され、短期予測係数をフィルタ係数とする合
成フィルタに入力されることによって、復号化音声が得
られる。
In the decoder, a driving sound source is calculated from the transmission parameters, and is input to a synthesis filter using short-term prediction coefficients as filter coefficients, thereby obtaining decoded speech.

【0018】[0018]

【実施例】以下、図面を用いて本発明の一実施例を説明
する。本発明の実施例の音声符号化部のブロック図を図
1に、音声復号化部のブロック図を図2に示す。
An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a speech encoding unit according to an embodiment of the present invention, and FIG. 2 is a block diagram of a speech decoding unit.

【0019】本発明は、符号駆動線形予測(CELP)
音声符号化方式に基づいているので、具体的な実施例の
説明に先立って、まずCELP方式の原理について説明
する。図3はCELPの符号化部における駆動音源決定
の原理図である。同図では、音源の周期性を表す成分と
して適応コードブック108の出力である長期予測ベク
トル110と、周期性以外の成分(ランダム性、雑音
性)として統計コードブック109の出力であるコード
ベクトル111にそれぞれの利得112、113を乗じ
て加算した荷重和114を駆動音源としている。
The present invention provides code driven linear prediction (CELP).
Since it is based on the speech coding method, the principle of the CELP method will be described first before describing a specific embodiment. FIG. 3 is a diagram illustrating the principle of determining the drive excitation in the CELP encoding unit. In the figure, a long-term prediction vector 110 which is the output of the adaptive codebook 108 as a component representing the periodicity of the sound source, and a code vector 111 which is an output of the statistical codebook 109 as a component (randomness, noise) other than the periodicity. Is multiplied by the respective gains 112 and 113, and the sum is used as the driving sound source.

【0020】最適な駆動音源を得るためのコードブック
の検索は次のようにしてなされる。一般に駆動音源を合
成フィルタに入力して得られる合成音声が、原音声(入
力音声)に一致するような駆動音源が得られれば良い
が、実際にはなんらかの誤差(量子化歪)を伴う。した
がってこの誤差を最小化するように駆動音源を決定すれ
ば良いことになるが、人間の聴覚特性は必ずしも誤差量
と音声の主観品質の対応が取れないことが知られてい
る。そこで聴覚特性との対応が良くなるように重み付け
した誤差を用いるのが一般的である。聴覚重み付けにつ
いては、例えば次の文献に記載されている。B. S. Atal
and J. R. Remde: "A new model of LPC excitation f
or producing natural-sounding speech at low bit ra
tes", Proc.ICASSP 82 (1982.5)。
A search for a code book for obtaining an optimal driving sound source is performed as follows. In general, it is sufficient that a driving sound source that is obtained by inputting a driving sound source to a synthesis filter matches the original sound (input sound), but in practice there is some error (quantization distortion). Therefore, it suffices to determine the drive sound source so as to minimize this error, but it is known that human auditory characteristics do not always correspond to the error amount and the subjective quality of speech. Therefore, it is common to use an error weighted so as to improve the correspondence with the auditory characteristics. The auditory weighting is described in the following document, for example. BS Atal
and JR Remde: "A new model of LPC excitation f
or producing natural-sounding speech at low bit ra
tes ", Proc. ICASSP 82 (1982.5).

【0021】この聴覚重み付け誤差を評価するために、
駆動音源114は重み付け合成フィルタ105に入力さ
れ、重み付け合成音声116を得る。入力音声101も
聴覚重み付けフィルタ104を通して重み付け入力音声
115を得、重み付け合成音声116との差を取って重
み付け誤差波形117を得る。なお、聴覚重み付けフィ
ルタ104と重み付け合成フィルタ105のフィルタ係
数は、あらかじめ入力音声101をLPC(線形予測)
分析器に入力して得られたLPCパラメータ103によ
って決められる。
To evaluate this auditory weighting error,
The driving sound source 114 is input to the weighted synthesis filter 105 to obtain a weighted synthesized voice 116. The input voice 101 also obtains a weighted input voice 115 through the auditory weighting filter 104, and obtains a weighted error waveform 117 by taking the difference from the weighted synthesized voice 116. Note that the filter coefficients of the auditory weighting filter 104 and the weighting synthesis filter 105 are obtained by inputting the input speech 101 in advance by LPC (linear prediction).
It is determined by the LPC parameters 103 obtained by input to the analyzer.

【0022】重み付け誤差波形117は、2乗誤差計算
部118において誤差評価区間にわたって2乗和を計算
され、重み付け2乗誤差119が得られる。前述のよう
に駆動音源は長期予測ベクトルと統計コードベクトルと
の荷重和であるから、駆動音源の決定は、各コードブッ
クからどのコードベクトルを選択するかを決めるコード
ベクトル指標の決定に帰着する。すなわち、長期予測ラ
グ106とコードベクトル指標107を順次変えて重み
付け2乗誤差119算出し、誤差最小化部120におい
て重み付け誤差が最小となるものを選択すれば良い。こ
のような駆動音源決定法を「合成による分析」法と呼ん
でいる。
The weighted error waveform 117 is calculated by the squared error calculator 118 over the error evaluation section to obtain a weighted squared error 119. As described above, since the driving sound source is the weighted sum of the long-term prediction vector and the statistical code vector, the determination of the driving sound source results in the determination of a code vector index that determines which code vector is selected from each codebook. That is, the weighted square error 119 is calculated by sequentially changing the long-term prediction lag 106 and the code vector index 107, and the error minimizing unit 120 may select the one that minimizes the weighting error. Such a drive sound source determination method is called an “analysis by synthesis” method.

【0023】この様にして最適な駆動音源が決定した
ら、長期予測ラグ106、コードブック指標107、利
得112、113、及びLPCパラメータ103を伝送
パラメータとして多重化部121において多重化し、送
信データ122とする。また、この時の駆動音源114
を用いて、適応コードブック108の状態が更新され
る。
When the optimal driving sound source is determined in this manner, the multiplexing section 121 multiplexes the long-term prediction lag 106, the codebook index 107, the gains 112 and 113, and the LPC parameters 103 as transmission parameters, and I do. Also, the driving sound source 114 at this time
Is used to update the state of adaptive codebook 108.

【0024】上述の「合成による分析」法を忠実に実行
しようとすると、すなわち毎回重み付け誤差を評価しな
がら長期予測ラグと統計コードベクトルの指標を同時に
最適化しようとすると、膨大な処理量となる。そのた
め、実際には逐次最適化等の手法が用いられる。
If the above-mentioned "analysis by synthesis" method is to be executed faithfully, that is, if the long-term prediction lag and the index of the statistical code vector are simultaneously optimized while evaluating the weighting error each time, an enormous amount of processing is required. . Therefore, a technique such as sequential optimization is actually used.

【0025】一方、復号器における処理は、まず受信デ
ータ222が多重分離器221で各種パラメータに分離
される。長期予測ラグ206に基づき適応コードブック
208を検索し、長期予測ベクトル210を出力する。
また、コードブック指標207に基づき統計コードブッ
クを検索し、音源ベクトル211を出力する。長期予測
ベクトル210と音源ベクトル211にそれぞれの利得
212と213を乗じ、加算した信号を駆動音源214
として合成フィルタ230に入力する。合成フィルタの
フィルタ係数は、LPCパラメータ203によって決ま
る。ポストフィルタ231は必須ではないが、合成音声
の主観的品質を改善するために多用され、その出力が出
力音声232となる。
On the other hand, in the processing in the decoder, first, the received data 222 is separated into various parameters by the demultiplexer 221. The adaptive code book 208 is searched based on the long-term prediction lag 206, and a long-term prediction vector 210 is output.
Further, the statistical code book is searched based on the code book index 207, and the sound source vector 211 is output. The long-term prediction vector 210 and the sound source vector 211 are multiplied by the respective gains 212 and 213, and the added signal is added to the driving sound source 214.
Is input to the synthesis filter 230. The filter coefficient of the synthesis filter is determined by the LPC parameter 203. The post filter 231 is not essential, but is often used to improve the subjective quality of the synthesized speech, and its output is the output speech 232.

【0026】本発明の一実施例の音声符号化部のブロッ
ク図を図1に、音声復号化部のブロック図を図2に示
す。以下、本実施例の動作の概要を説明する。
FIG. 1 is a block diagram of a speech encoder according to an embodiment of the present invention, and FIG. 2 is a block diagram of a speech decoder. Hereinafter, an outline of the operation of the present embodiment will be described.

【0027】音声符号化器では、所定の標本化周波数
(通常8kHz)でA/D変換されたディジタル音声信
号11が入力される。
The audio encoder receives a digital audio signal 11 that has been A / D converted at a predetermined sampling frequency (usually 8 kHz).

【0028】短期予測分析器(LPC分析器)12は分
析フレーム長の音声データ11を読みだし、短期予測係
数13を出力する。フレーム長は、例えば40ms(3
20サンプル)程度である。
A short-term prediction analyzer (LPC analyzer) 12 reads out audio data 11 having an analysis frame length and outputs a short-term prediction coefficient 13. The frame length is, for example, 40 ms (3
20 samples).

【0029】短期予測係数13は、短期予測係数量子化
器14において量子化される。量子化符号が短期予測係
数量子化指標18として、伝送パラメータとして出力さ
れる。また、短期予測係数の量子化値17が、次段以降
の処理で参照される。
The short-term prediction coefficient 13 is quantized by a short-term prediction coefficient quantizer 14. The quantization code is output as a short-term prediction coefficient quantization index 18 as a transmission parameter. Further, the quantized value 17 of the short-term prediction coefficient is referred to in the processing of the next and subsequent stages.

【0030】さらに、入力音声11は聴覚重み付けフィ
ルタ19で重み付けられ、重み付け音声20が得られ
る。一方、重み付け合成フィルタ21にフレーム長分
の、値が0の信号(零入力)22を入力し、零入力応答
23を得る。これを重み付け入力音声20から減算し、
重み付け合成フィルタの過去の内部状態の影響を取り除
いた重み付け入力音声24が得られる。また、重み付け
合成フィルタのインパルス応答29も求めておく。
Further, the input voice 11 is weighted by the auditory weighting filter 19, and a weighted voice 20 is obtained. On the other hand, a signal (zero input) 22 having a value of 0 for the frame length is input to the weighting synthesis filter 21 to obtain a zero input response 23. This is subtracted from the weighted input speech 20,
The weighted input speech 24 is obtained in which the influence of the past internal state of the weighting synthesis filter has been removed. Further, the impulse response 29 of the weighting synthesis filter is also obtained.

【0031】長期予測分析は、サブフレームごとに適応
コードブックの検索によって実行されるので、以下では
適応コードブック検索と呼ぶ。ここで、サブフレーム長
は、例えば8ms(64サンプル)程度である。適応コ
ードブック検索器25において、音声の周期性を表すパ
ラメータである長期予測ラグが抽出され、長期予測ラグ
の指標31と長期予測ベクトル48が出力される。
Since the long-term prediction analysis is performed by searching the adaptive codebook for each subframe, it is hereinafter referred to as an adaptive codebook search. Here, the subframe length is, for example, about 8 ms (64 samples). The adaptive codebook searcher 25 extracts a long-term prediction lag, which is a parameter representing the periodicity of speech, and outputs a long-term prediction lag index 31 and a long-term prediction vector 48.

【0032】パルス発生器35では、パルス情報コード
ブック33からパルス間隔と先頭パルス位置を読みだ
し、その情報34に基づきパルス列36を生成する。パ
ルス音源検索部32では、パルス列36を音源ベクトル
とみなし、重み付け合成フィルタのインパルス応答29
の畳み込みにより、重み付けする。重み付けられた入力
信号20から零入力応答23を減算した信号24から、
さらに利得を乗じた重み付け長期予測ベクトル30を差
し引いた信号に対し、最適なパルス音源49を検索す
る。最適なパルス音源49に対応するパルス情報コード
ブック33の指標38を出力する。
The pulse generator 35 reads the pulse interval and the leading pulse position from the pulse information codebook 33, and generates a pulse train 36 based on the information 34. The pulse sound source search unit 32 regards the pulse train 36 as a sound source vector, and determines the impulse response 29 of the weighting synthesis filter.
Is weighted by convolution of From the signal 24 obtained by subtracting the quiescent response 23 from the weighted input signal 20,
Further, an optimum pulse sound source 49 is searched for a signal obtained by subtracting the weighted long-term prediction vector 30 multiplied by the gain. The index 38 of the pulse information codebook 33 corresponding to the optimal pulse sound source 49 is output.

【0033】利得最適化・量子化器39では、長期予測
ベクトル48、及び、パルス音源ベクトル49の利得の
最適値を計算し、量子化する。その時の量子化コード4
4を出力する。
The gain optimizer / quantizer 39 calculates and quantizes the optimum values of the long-term prediction vector 48 and the gain of the pulse excitation vector 49. Quantization code 4 at that time
4 is output.

【0034】以上のようにして求められた短期予測係数
や利得の量子化コード18、44、長期予測ラグの指標
31や選択されたパルス情報コードブックの指標38が
伝送パラメータとして音声復号器へ伝送される。
The short-term prediction coefficients and gain quantization codes 18 and 44, the long-term prediction lag index 31 and the selected pulse information codebook index 38 obtained as described above are transmitted to the speech decoder as transmission parameters. Is done.

【0035】音声復号器では、長期予測ラグの指標54
を用いて適応コードブック60から長期予測ベクトル6
1が読みだされ、また、パルス情報コードブック指標5
5を用いてパルス情報コードブック62からパルス間隔
と先頭パルス位置に関する情報63が読みだされ、パル
ス発生器64においてパルス音源65が発生される。ま
た、利得コードブック指標53を用いて、利得コードブ
ック57から各利得58、59が再生される。各コード
ベクトル61、62に各利得58、59を乗じて加算
し、駆動音源ベクトル68が生成される。
In the speech decoder, the index 54 of the long-term prediction lag
From the adaptive codebook 60 using the
1 is read out, and the pulse information codebook index 5
5, information 63 on the pulse interval and the leading pulse position is read from the pulse information codebook 62, and a pulse generator 64 generates a pulse sound source 65. The gains 58 and 59 are reproduced from the gain codebook 57 using the gain codebook index 53. Each of the code vectors 61 and 62 is multiplied by each of the gains 58 and 59 and added to generate a driving excitation vector 68.

【0036】上記駆動音源68を、合成フィルタ71に
入力することによって、合成音声72が得られる。合成
フィルタ71のフィルタ係数は、短期予測パラメータの
量子化指標56に基づいて短期予測パラメータ量子化コ
ードブック69から読みだされた短期予測パラメータが
用いられる。最後に主観的な音質を向上させる目的で、
合成音声72が適応ポストフィルタ73に入力され、最
終的な復号音声74が得られる。
By inputting the driving sound source 68 to the synthesis filter 71, a synthesized speech 72 is obtained. The short-term prediction parameters read from the short-term prediction parameter quantization code book 69 based on the short-term prediction parameter quantization index 56 are used as the filter coefficients of the synthesis filter 71. Finally, for the purpose of improving subjective sound quality,
The synthesized speech 72 is input to the adaptive post filter 73, and a final decoded speech 74 is obtained.

【0037】復号音声(ディジタル信号)はDA変換さ
れ、アナログ音声に変換され、出力される。
The decoded sound (digital signal) is DA-converted, converted to analog sound, and output.

【0038】以上、本実施例の概要を説明したので、次
に主要部分の詳細な機能について説明する。
Having described the outline of the present embodiment, the detailed functions of the main parts will be described next.

【0039】短期予測分析器(LPC分析器)12は、
フレームごとに音声データ11から音声のスペクトル包
絡を表す短期予測係数13を抽出する。短期予測係数1
3は最も一般的には線形予測係数であるが、それから導
出される等価なパラメータである偏自己相関係数(PA
RCOR係数、反射係数)や線スペクトル対(LSPパ
ラメータ)に容易に変換される。
The short-term prediction analyzer (LPC analyzer) 12
A short-term prediction coefficient 13 representing a speech spectral envelope is extracted from the speech data 11 for each frame. Short-term forecast coefficient 1
3 is most commonly a linear prediction coefficient, but an equivalent parameter derived therefrom, the partial autocorrelation coefficient (PA
It is easily converted to RCOR coefficients, reflection coefficients) and line spectrum pairs (LSP parameters).

【0040】線形予測係数の導出方法としては、Dur
bin・Levinsonの反復法(斎藤、中田著、
「音声情報処理の基礎」、オーム社、昭和56年に紹介
されている)が一般的であり、反射係数の導出方法は、
上記以外にもFLATアルゴリズム(電波システム開発
センター策定、「デジタル方式自動車電話システム標準
規格RCR STD−27」(以下、「RCR規格書」
と略す)に開示されている)やLeRoux法(斎藤、
中田著、前出書に記載)などが提案されている。また、
線形予測係数からLSPパラメータへの変換方法も、斎
藤、中田著の前出書に記載されている。
As a method of deriving the linear prediction coefficient, Dur
bin-Levinson's iterative method (by Saito and Nakata,
"Basics of speech information processing", introduced in Ohmsha, 1981) is common.
In addition to the above, the FLAT algorithm (established by the Radio System Development Center, "Digital Car Phone System Standard RCR STD-27" (hereinafter "RCR Standard"
Abbreviations) and the LeRoux method (Saito,
Nakata, described in the above-mentioned book). Also,
A method of converting linear prediction coefficients into LSP parameters is also described in the above-mentioned book by Saito and Nakata.

【0041】線形予測係数13は本実施例ではLSPパ
ラメータに変換された後、量子化器14によってベクト
ル量子化され、量子化値17に変換される(LSPコー
ドブック15からコードベクトル16が順次読みださ
れ、最も誤差の小さいものが量子化値となる)。LSP
パラメータは線形予測係数を直接量子化するよりも量子
化特性が良い(同一のビット数で量子化しても、スペク
トル歪が小さい)ことが知られている。量子化方法は、
許容されるビット数によって、スカラー量子化や多段ベ
クトル量子化、ベクトル・スカラー量子化等が用いられ
ることもある。量子化指標18は伝送パラメータとして
出力される。
In this embodiment, the linear prediction coefficients 13 are converted into LSP parameters, then vector-quantized by the quantizer 14 and converted into quantized values 17 (code vectors 16 are sequentially read from the LSP codebook 15). However, the one with the smallest error is the quantization value.) LSP
It is known that parameters have better quantization characteristics than direct quantization of linear prediction coefficients (spectral distortion is small even if quantized with the same number of bits). The quantization method is
Depending on the allowable number of bits, scalar quantization, multi-stage vector quantization, vector / scalar quantization, or the like may be used. The quantization index 18 is output as a transmission parameter.

【0042】次に聴覚重み付け誤差を計算するための前
処理について説明する。重み付け誤差を算出するため
に、まず入力音声11に聴覚重み付けフィルタ19で重
み付けがなされ、重み付け音声20を得る。重み付けフ
ィルタ19は短期予測係数(または等価なパラメータ)
の量子化値17から構成されるが、その具体形式は次の
通りである。
Next, the preprocessing for calculating the auditory weighting error will be described. In order to calculate the weighting error, first, the input speech 11 is weighted by the auditory weighting filter 19 to obtain the weighted speech 20. The weighting filter 19 is a short-term prediction coefficient (or equivalent parameter)
, And its specific format is as follows.

【0043】[0043]

【数1】 (Equation 1)

【0044】ここにαiはフィルタ係数(線形予測係
数)、Npはフィルタ次数でたとえばNp=10、λは
重み付けパラメータで通常λ=0.8である。
Here, α i is a filter coefficient (linear prediction coefficient), Np is a filter order, for example, Np = 10, and λ is a weighting parameter, usually λ = 0.8.

【0045】一般に合成フィルタの出力は過去の状態の
影響を受けるが、ここでは演算量を削減するために、予
め重み付け音声20から過去の合成フィルタの影響を取
り除いておく。すなわち、重み付け合成フィルタ21に
フレーム長に相当する、値が0のデータ(零入力22)
を入力し、零入力応答23を計算し、重み付け音声20
から減算し、過去の影響を取り除いた重み付け音声24
を得る。ここで用いる重み付け合成フィルタ21の伝達
関数は次の通りである。
In general, the output of the synthesis filter is affected by the past state. Here, the influence of the past synthesis filter is removed from the weighted speech 20 in advance to reduce the amount of calculation. That is, data having a value of 0 (zero input 22) corresponding to the frame length is output to the weighting synthesis filter 21.
, A zero input response 23 is calculated, and the weighted speech 20
From the weighted speech 24 from which the past effects have been removed.
Get. The transfer function of the weighting synthesis filter 21 used here is as follows.

【0046】[0046]

【数2】 (Equation 2)

【0047】この合成フィルタ21は重み付けパラメー
タλを含んでいる点が、復号側の合成フィルタと異なる
点である。また、この重み付け合成フィルタ21のイン
パルス応答29も同時に求めておく。この時、(数2)
のαとしては、線形予測パラメータの量子化値17が用
いられる。
This synthesis filter 21 is different from the decoding-side synthesis filter in that it includes a weighting parameter λ. The impulse response 29 of the weighting synthesis filter 21 is also obtained at the same time. At this time, (Equation 2)
Is used as the quantization value 17 of the linear prediction parameter.

【0048】初めに説明したとおり、長期予測分析は適
応コードブックの検索とみなされ、合成波形と原音声と
の聴覚重み付け誤差の最小化によって長期予測ラグ(適
応コードブックの指標)が選択される。ここでは適応コ
ードブック検索とパルス音源検索は逐次的に行われる場
合について説明する。すなわち、パルス音源を用いない
と仮定して、最適な長期予測ラグの指標31を決定す
る。
As described earlier, the long-term prediction analysis is regarded as an adaptive codebook search, and the long-term prediction lag (index of the adaptive codebook) is selected by minimizing the perceptual weighting error between the synthesized waveform and the original speech. . Here, a case where the adaptive codebook search and the pulse sound source search are sequentially performed will be described. That is, the optimal long-term prediction lag index 31 is determined on the assumption that no pulse sound source is used.

【0049】次に、適応コードブック検索部25につい
て説明する。検索の対象となる長期予測ラグに対応し
て、適応コードブック26から読みだされたコードベク
トル27の重み付け合成は、重み付け合成フィルタのイ
ンパルス応答29との畳み込みによって実現する。この
ようにして得られた合成出力(重み付き長期予測ベクト
ル)30は合成フィルタの過去の状態には依存しないの
で、零状態応答と呼ばれる。検索範囲にある各ラグに対
する長期予測ベクトル30を計算し、過去の影響を取り
除いた重み付け音声24との相関が計算され、相関の最
大値を与える(最適な)長期予測ベクトル48と、その
時の長期予測ラグを量子化した長期予測ラグ指標31が
出力される。長期予測分析方法の詳細や演算量削減のた
めの手法等については、前出のRCR規格書を参照され
たい。
Next, the adaptive code book search section 25 will be described. The weighting synthesis of the code vector 27 read from the adaptive codebook 26 corresponding to the long-term prediction lag to be searched is realized by convolution with the impulse response 29 of the weighting synthesis filter. The synthesized output (weighted long-term prediction vector) 30 obtained in this manner is called a zero-state response because it does not depend on the past state of the synthesis filter. The long-term prediction vector 30 for each lag in the search range is calculated, the correlation with the weighted speech 24 from which the influence of the past is removed is calculated, the (optimum) long-term prediction vector 48 giving the maximum value of the correlation, A long-term prediction lag index 31 obtained by quantizing the prediction lag is output. For details of the long-term prediction analysis method and the method for reducing the amount of calculation, refer to the aforementioned RCR standard.

【0050】次に、パルス音源ベクトルの生成について
説明する。
Next, generation of the pulse excitation vector will be described.

【0051】本発明では、従来のCELPの統計音源の
代わりにパルス音源を用いる点に特徴がある。パルス音
源は、基本的には周期パルス列の一部(サブフレーム長
分)を取りだしたものである。しかし、先頭パルス位置
は図5に示すように、パルス間隔によらずサブフレーム
の最初のサンプルから最後のサンプルまで取りうるよう
にしている。これは低ビットレート化にともないサブフ
レーム長が長くなることによって、長期予測ベクトルで
はカバーしきれない、音声の立上りの特徴をパルス音源
により再現するためである。また、パルス間隔は長期予
測ラグの検索範囲と同様に、人間の発声のピッチ周期の
変動範囲をほぼカバーする程度にするのが良い。本実施
例では最小パルス間隔をLmin=21、最大パルス間
隔をLmax=146としている。
The present invention is characterized in that a pulsed sound source is used instead of the conventional CELP statistical sound source. The pulse sound source is basically a part (subframe length) of a periodic pulse train. However, as shown in FIG. 5, the head pulse position can be taken from the first sample to the last sample of the subframe regardless of the pulse interval. This is because the characteristic of the rising edge of speech, which cannot be covered by the long-term prediction vector, is reproduced by the pulse sound source due to the increase in the sub-frame length accompanying the lower bit rate. Further, the pulse interval is preferably set so as to substantially cover the fluctuation range of the pitch period of the human utterance, similarly to the search range of the long-term prediction lag. In this embodiment, the minimum pulse interval is Lmin = 21, and the maximum pulse interval is Lmax = 146.

【0052】パルス情報コードブック33には、図6に
示すようにパルス間隔と先頭パルス位置が格納されてい
る。図5から分かるように、パルス間隔をL、サブフレ
ーム長をNとしたとき(本実施例ではN=64)、L≧
Nの場合はサブフレーム内のパルス数は1本である。L
<Nの場合は、先頭パルス位置によって1本または2本
以上となる。1本の場合は、L≧Nの場合と重複するの
で、パルス情報コードブックにはパルス列の重複が生じ
ないようにパルス間隔と先頭パルス位置を配置する。す
なわち、L<Nの場合は、先頭パルス位置はサブフレー
ム内に2本以上のパルスが存在するような範囲とし、L
≧Nについては、L=Nで代表させ、先頭パルス位置は
0からN−1とする。本実施例ではN=64、Lmin
=21としているので、重複のないパルス列の種類は1
010通りとなり、10ビットで表現できる。
The pulse information codebook 33 stores pulse intervals and leading pulse positions as shown in FIG. As can be seen from FIG. 5, when the pulse interval is L and the subframe length is N (N = 64 in this embodiment), L ≧
In the case of N, the number of pulses in the subframe is one. L
In the case of <N, the number is one or more depending on the leading pulse position. In the case of one line, since the overlap is made with the case of L ≧ N, the pulse interval and the leading pulse position are arranged in the pulse information codebook so that the pulse train does not overlap. That is, when L <N, the head pulse position is set to a range in which two or more pulses exist in the subframe.
For ≧ N, L = N is represented, and the leading pulse position is from 0 to N−1. In this embodiment, N = 64, Lmin
= 21, the type of non-overlapping pulse train is 1
010 patterns can be represented by 10 bits.

【0053】パルス発生器35では、パルス情報コード
ブック33から読みだされたパルス間隔と先頭パルス位
置の情報34に基づき、図7に示すようなパルスを生成
する。パルスの振幅は1、パルスの存在しないサンプル
の振幅は0とする。
The pulse generator 35 generates a pulse as shown in FIG. 7 based on the pulse interval read from the pulse information codebook 33 and the information 34 on the leading pulse position. The amplitude of a pulse is 1, and the amplitude of a sample without a pulse is 0.

【0054】以上はパルス情報コードブック33とパル
ス発生器35によってパルス音源ベクトル36を生成す
る場合であるが、全てのパルス音源ベクトルをコードブ
ックに格納しておくことももちろん可能である。ただし
その場合は、パルス生成の処理が省略できる反面、コー
ドブックの記憶容量は、パルス情報コードブック33で
は1ベクトルあたりパルス間隔と先頭パルス位置の2ワ
ードで済んでいたのに対し、Nワード必要になる。
The above is a case where the pulse information vector 36 is generated by the pulse information codebook 33 and the pulse generator 35. However, it is of course possible to store all the pulse information vectors in the codebook. In this case, the pulse generation process can be omitted. On the other hand, the storage capacity of the codebook is N words, whereas the pulse information codebook 33 requires only two words of the pulse interval and the first pulse position per vector. become.

【0055】次にパルス音源の検索について説明する。Next, search for a pulse sound source will be described.

【0056】まず、適応コードブック検索の結果出力さ
れた最適な長期予測ベクトル48をbL(n)、その重み付
けられた信号(bL(n)の零状態応答)30をb'L(n)、
利得をβとする。また、過去の影響を取り除いた重み付
け入力音声24をp(n)とする。ここで次式のようにp'
(n)を定義する。
First, the optimal long-term prediction vector 48 output as a result of the adaptive codebook search is represented by b L (n), and its weighted signal (zero state response of b L (n)) 30 is represented by b ′ L (n ),
Let the gain be β. The weighted input speech 24 from which the influence of the past has been removed is defined as p (n). Where p '
Define (n).

【0057】[0057]

【数3】 (Equation 3)

【0058】これは理想的な合成音声から長期予測ベク
トルの寄与分を差し引いた成分を表しており、パルス音
源によってカバーしようとする成分である。
This represents a component obtained by subtracting the contribution of the long-term prediction vector from the ideal synthesized speech, and is a component to be covered by the pulse sound source.

【0059】生成したパルス音源をfi(n)、その重み付
け合成音声をf'i(n)とすると、誤差E、
Assuming that the generated pulse sound source is f i (n) and the weighted synthesized speech is f ′ i (n), the error E,

【0060】[0060]

【数4】 (Equation 4)

【0061】を最小化するようなf'i(n)を求めればよ
い。ここでγiは利得、iはパルス情報コードブックの
指標(インデクス)を表す。
It is sufficient to find f ′ i (n) that minimizes f ′ i (n). Here, γ i represents a gain, and i represents an index (index) of the pulse information codebook.

【0062】(数4)をγで偏微分して0とおくと、誤
差Eを最小化するγi
If (Equation 4) is partially differentiated with γ and set to 0, γ i that minimizes the error E is

【0063】[0063]

【数5】 (Equation 5)

【0064】となり、この時のEはWhere E is

【0065】[0065]

【数6】 (Equation 6)

【0066】となる。ここで(数6)の右辺第1項は
f'i(n)によらず正の一定値となるので、右辺第2項を
最大化するf'i(n)、すなわちパルス音源fi(n)を求め
ることに帰着する。
Is obtained. Here, the first term on the right side of (Equation 6) has a positive constant value regardless of f ′ i (n), so f ′ i (n) that maximizes the second term on the right side, that is, the pulse sound source f i ( n).

【0067】以上の処理は、基本的には従来のCELP
における統計コードブック検索と同じであり、処理量の
大きな部分である。本発明では、パルス音源の特徴を利
用し、次数を打ち切ったインパルス応答を用いること
で、検索の処理量を大幅に低減している。
The above processing is basically performed by the conventional CELP
This is the same as the statistical codebook search in, and is a large part of the processing amount. In the present invention, the amount of search processing is significantly reduced by using an impulse response whose order is truncated using the characteristics of a pulse sound source.

【0068】一般にインパルス応答の畳み込みにより音
声を合成する場合、インパルス応答の次数打切りは誤差
の原因となる。しかし、(数2)で表される重み付け合
成フィルタのインパルス応答は図8に示すように、重み
付けなしのインパルス応答に比べて減衰が急峻であり、
次数打切りの影響は小さい。打切り次数を20次(2.
5ms)位に設定すれば、ほとんどの場合打切りによる
影響は無視できる。そこで本発明では、打切り次数をパ
ルス音源の最小パルス間隔であるLmin(21サンプ
ル)にする。
In general, when speech is synthesized by convolution of an impulse response, truncation of the order of the impulse response causes an error. However, as shown in FIG. 8, the impulse response of the weighted synthesis filter represented by (Equation 2) has a steeper attenuation than the impulse response without weighting.
The effect of order truncation is small. Set the truncation order to 20 (2.
If it is set to about 5 ms), in most cases, the effect of the discontinuation can be ignored. Therefore, in the present invention, the truncation order is set to Lmin (21 samples) which is the minimum pulse interval of the pulse sound source.

【0069】ここでCi、Giを次式のように定義する。Here, C i and G i are defined as follows.

【0070】[0070]

【数7】 (Equation 7)

【0071】Ciはp'(n)とf'i(n)の相互相関であり、
またGiはf'i(n)のパワーであるので、本来ならばf'i
(n)が変わるごとに(指標iを更新するごとに)計算し
なおす必要がある。一方、p'(n)(0≦n≦N−1、N
はサブフレームのサンプル数)とインパルス応答h(n)
はあるサブフレームでは一定である。ここで次数をLm
inで打ち切ったインパルス応答をh'(n)(0≦n≦L
min)とし、次式で表されるaj(0≦j≦N−1)
をあらかじめ計算しておく。
C i is the cross-correlation between p ′ (n) and f ′ i (n),
The 'because it is the power of i (n), would otherwise f' G i is f i
Each time (n) changes (every time the index i is updated), it is necessary to recalculate. On the other hand, p ′ (n) (0 ≦ n ≦ N−1, N
Is the number of subframe samples) and the impulse response h (n)
Is constant in a certain subframe. Where the order is Lm
The impulse response censored at in is represented by h ′ (n) (0 ≦ n ≦ L
min) and a j (0 ≦ j ≦ N−1) represented by the following equation:
Is calculated in advance.

【0072】[0072]

【数8】 (Equation 8)

【0073】ajは図9に示すように、h'(n)の位置を
1サンプルずつシフトしたときの、h'(n)に対応する
p'(n)の部分との相互相関を示してしている。
A j indicates the cross-correlation between the position of h ′ (n) and the portion of p ′ (n) corresponding to h ′ (n) when the position of h ′ (n) is shifted by one sample, as shown in FIG. I have.

【0074】h'(n)はLminで打ちきられているの
で、検索対象のいかなるパルス音源に対してもパルス間
でのオーバラップが生じない。したがって、(数7)の
iを求めるには、例えば図10に示すように、パルス
音源fi(n)のパルス位置がP1、P2、P3だったとす
ると、あらかじめ計算してあるajのうち、aP1
P2、aP3の和を計算すれば良いことになる。よって、
f'i(n)が変わるごとに行うべきインパルス応答の畳み
込みの計算が、あらかじめサブフレームに1回計算して
ある部分相互相関の和に置き換えられることにより、処
理量の大幅な低減が可能となった。
Since h '(n) is spelled out at Lmin, there is no overlap between pulses for any pulse sound source to be searched. Accordingly, the a j To obtain the C i, for example, as shown in FIG. 10, when the pulse position of the pulse excitation f i (n) is that it was P1, P2, P3, which is previously calculated in equation (7) Of these, the sum of a P1 , a P2 , and a P3 may be calculated. Therefore,
Since the convolution calculation of the impulse response to be performed every time f ′ i (n) changes is replaced with the sum of partial cross-correlations calculated once in the subframe in advance, the processing amount can be significantly reduced. became.

【0075】同様な手法が(数7)のGiについても適
用できる。すなわち、あらかじめ次式で定義されるgj
を計算しておく。
[0075] can also be applied to G i of the same techniques (number 7). That is, g j defined in advance by the following equation
Is calculated.

【0076】[0076]

【数9】 (Equation 9)

【0077】なお、(数9)の示すとおり、0≦j≦N
−Lminの場合はgjの値は一定になるので、g0のみ
計算しておけば良い。Giの計算もCiの場合と同様に、
i(n)のパルス位置に対応したgjの和を求めることに
よって実現できる。
Note that, as shown in (Equation 9), 0 ≦ j ≦ N
In the case of −Lmin, the value of g j is constant, so that only g 0 needs to be calculated. As with the calculation of the G i also of C i,
This can be realized by obtaining the sum of g j corresponding to the pulse position of f i (n).

【0078】なお、この様にして最適な(Ci 2/Gi
最大化する)パルス音源fi(n)が求まったら、次数打切
りをしないインパルス応答h(n)を用いることにより、
i(n)の厳密な重み付け信号f'i(n)を計算しておく。
When the optimum pulse sound source f i (n) (maximizing C i 2 / G i ) is determined in this way, the impulse response h (n) without order truncation is used.
f i strict weighting signal f 'i of (n) (n) previously calculated.

【0079】パルスコードブックを用いる従来の方法
(前述の吉田等の文献、及び、田中等の文献)ではパル
ス間隔は長期予測ラグ、または、ピッチ抽出をして求め
たピッチ周期としている。そのため、入力音声の周期性
の低い部分ではパルス音源を使用すると音質が劣化して
いた。本発明では、可能な組合せのパルス音源の全検索
を行っているため、この様な部分でも長期予測ベクトル
を補完し、良好な音質が得られる。その結果、雑音音源
を用いる必要がなくなり、音源切り替えによる音色の変
化といった問題を回避できる。
In the conventional method using the pulse code book (the above-mentioned document by Yoshida et al. And the document by Tanaka et al.), The pulse interval is a long-term prediction lag or a pitch period obtained by extracting a pitch. Therefore, when a pulse sound source is used in a portion where the periodicity of the input voice is low, the sound quality is deteriorated. According to the present invention, since all the pulse sound sources of the possible combinations are searched, the long-term prediction vector is complemented even in such a portion, and good sound quality can be obtained. As a result, there is no need to use a noise sound source, and problems such as a change in timbre due to sound source switching can be avoided.

【0080】音声符号器における最終段の処理は利得の
最適化と量子化である。利得最適化・量子化器39に、
厳密に重み付けられた(次数打切りのないインパルス応
答の畳み込みによって求められた)長期予測ベクトル
b'L(n)30とパルス音源ベクトルf'i(n)37、及び、
過去の影響を取り除かれた重み付け入力音声p(n)24
が入力される。ここで改めて利得をβ、γとすると、次
式の重み付け誤差Eを最小化するようにβとγを決定す
る。
The processing at the final stage in the speech encoder is optimization of gain and quantization. In the gain optimization / quantizer 39,
A strictly weighted long-term prediction vector b ′ L (n) 30 (determined by convolution of the impulse response without order truncation) and a pulse source vector f ′ i (n) 37, and
Weighted input speech p (n) 24 from which past effects have been removed
Is entered. Here, assuming that the gains are β and γ again, β and γ are determined so as to minimize the weighting error E in the following equation.

【0081】[0081]

【数10】 (Equation 10)

【0082】具体的には、(数10)をβとγで偏微分
して0とおいてできる連立方程式を解くことによる。
More specifically, the equation (10) is partially differentiated by β and γ to solve a simultaneous equation that can be set to 0.

【0083】利得の量子化は、βとγを直接スカラー量
子化したり、別の変数に変換後ベクトル量子化するなど
の方法がある。本実施例では後者の方法によりベクトル
量子化する。具体的な方法はRCR規格書を参照された
い。
The quantization of the gain includes a method of directly scalar quantizing β and γ and a method of vector quantizing after transforming β and γ into another variable. In this embodiment, vector quantization is performed by the latter method. Refer to the RCR standard for the specific method.

【0084】β及びγの量子化値をβq42、γq43と
すると、それぞれを重み付けられていない長期予測ベク
トル48とパルス音源ベクトル49に乗じ、駆動音源4
5を作製する。この駆動音源45は、適応コードブック
26の更新に用いられる。
Assuming that the quantization values of β and γ are β q 42 and γ q 43, respectively, the unweighted long-term prediction vector 48 and the pulse excitation vector 49 are multiplied, and the driving excitation 4
5 is produced. The driving sound source 45 is used for updating the adaptive codebook 26.

【0085】次に図2に戻り、本実施例の音声復号化部
について説明する。
Next, returning to FIG. 2, the speech decoding section of this embodiment will be described.

【0086】受信データ51は、多重分離器52におい
て、短期予測パラメータ量子化指標56、長期予測ラグ
指標54、パルス情報コードブック指標55、利得量子
化指標53に多重分離される。
The received data 51 is demultiplexed in the demultiplexer 52 into a short-term prediction parameter quantization index 56, a long-term prediction lag index 54, a pulse information codebook index 55, and a gain quantization index 53.

【0087】復号化処理の第1段階は、各パラメータ値
の復号化である。短期予測パラメータの指標56に基づ
いて、短期予測パラメータ量子化コードブック69から
短期予測パラメータ値70が復号される。同様に適応コ
ードブック60では、長期予測ラグ指標54に基づいて
長期予測ベクトル61を復号する。利得コードブック5
7では、利得量子化指標53に基づいて量子化利得5
8、59を復号する。パルス情報コードブック指標55
に基づいて、パルス情報コードブック62からパルス間
隔と先頭パルス位置の情報63が読みだされ、パルス生
成器64によってパルス音源ベクトル(パルス列)65
が復号される。
The first stage of the decoding process is to decode each parameter value. The short-term prediction parameter value 70 is decoded from the short-term prediction parameter quantization codebook 69 based on the short-term prediction parameter index 56. Similarly, the adaptive codebook 60 decodes the long-term prediction vector 61 based on the long-term prediction lag index 54. Gain codebook 5
7, the quantization gain 5 based on the gain quantization index 53.
Decode 8, 59. Pulse information codebook index 55
, The information 63 of the pulse interval and the leading pulse position is read from the pulse information codebook 62, and the pulse generator 64 generates a pulse excitation vector (pulse train) 65.
Is decoded.

【0088】復号化処理の第2段階は、駆動音源の生成
である。適応コードブック60から長期予測ラグ指標5
4に対応して読みだされた長期予測ベクトル61と、パ
ルス音源ベクトル65のそれぞれに、利得58、59が
乗ぜられ、加算されて駆動音源68が生成される。駆動
音源68は合成フィルタ71に入力されるとともに、適
応コードブック60の状態更新にも用いられる。
The second stage of the decoding process is the generation of a driving sound source. Long-term prediction lag index 5 from adaptive codebook 60
4 are multiplied by the gains 58 and 59, respectively, and the driving sound source 68 is generated. The driving sound source 68 is input to the synthesis filter 71 and is also used for updating the state of the adaptive codebook 60.

【0089】復号化処理の最後の段階は、音声合成であ
る。合成フィルタ71では、復号された短期予測パラメ
ータ70をフィルタ係数とし、駆動音源68を入力する
ことによってディジタル合成音声72を合成出力する。
さらに、主観的音質を高めるために、合成フィルタ71
の出力72をポストフィルタ73に通し、その出力であ
る最終的なディジタル合成音声74を得る。これはバッ
ファメモリを介して連続的にDA変換器に送られ、アナ
ログ合成音声に変換される。
The last stage of the decoding process is speech synthesis. The synthesis filter 71 uses the decoded short-term prediction parameter 70 as a filter coefficient and inputs a driving sound source 68 to synthesize and output a digital synthesized speech 72.
Furthermore, in order to enhance the subjective sound quality, the synthesis filter 71
Is passed through a post filter 73 to obtain a final digital synthesized voice 74 as the output. This is continuously sent to a DA converter via a buffer memory and converted into an analog synthesized voice.

【0090】以上で、本発明の実施例の音声入力から符
号化、復号化、音声出力までの動作を説明した。以上の
説明では、音声のフレームエネルギー(パワー)には特
に言及しなかった。これはフレームエネルギーは駆動音
源の利得に反映されているためであるが、利得の量子化
を考慮すると、利得のダイナミックレンジを抑えるため
にあらかじめフレームエネルギーで正規化しておく方が
有利である。フレームエネルギーは線形予測パラメータ
の計算時に容易に求められるので、フレームエネルギー
は別途量子化して、その指標を伝送する。このようにし
た場合のビット割当ての例を次に示す。
The operations from the speech input to the encoding, decoding, and speech output according to the embodiment of the present invention have been described above. In the above description, the frame energy (power) of the speech has not been particularly mentioned. This is because the frame energy is reflected in the gain of the driving sound source. In consideration of the quantization of the gain, it is more advantageous to normalize the frame energy in advance in order to suppress the dynamic range of the gain. Since the frame energy can be easily obtained when calculating the linear prediction parameter, the frame energy is separately quantized and its index is transmitted. An example of bit allocation in such a case will be described below.

【0091】標本化周波数を8kHz、フレーム長を4
0ms(320サンプル)、サブフレーム長を8ms
(64サンプル)とする。フレームエネルギーと線形予
測パラメータはフレーム単位で更新し、他のパラメータ
はサブフレーム単位で更新するものとする。なお、フレ
ームエネルギーと線形予測パラメータは、サブフレーム
単位で補間して用いた方が、合成音声の品質向上に有効
である。量子化は27ビットの多段ベクトル量子化を行
うとすれば、線形予測パラメータの量子化指標は27ビ
ットとなる。フレームエネルギーは5ビットでスカラー
量子化する。よって、フレーム当りの伝送ビット数は3
2ビットである。
The sampling frequency is 8 kHz and the frame length is 4
0 ms (320 samples), subframe length 8 ms
(64 samples). It is assumed that the frame energy and the linear prediction parameter are updated on a frame basis, and the other parameters are updated on a subframe basis. Note that it is more effective to improve the quality of synthesized speech if the frame energy and the linear prediction parameter are interpolated and used in subframe units. Assuming that the quantization is performed by 27-bit multistage vector quantization, the quantization index of the linear prediction parameter is 27 bits. The frame energy is scalar quantized with 5 bits. Therefore, the number of transmission bits per frame is 3
Two bits.

【0092】サブフレーム単位のパラメータは、長期予
測ラグの指標が7ビットで、これは長期予測ラグの範囲
が19サンプル(421Hz)から146サンプル(5
5Hz)に対応する。パルス情報コードブックのコード
ブックサイズを10ビット(1010コードベクトル、
14ベクトルは未使用)とすればコードベクトル指標は
10ビットである。利得は、長期予測ベクトルに対する
ものと統計コードベクトルに対するものを別のパラメー
タに変換した上、ベクトル量子化して8ビットで表す。
よって、サブフレーム当りの伝送ビット数は25ビット
となる。以上により、トータルビットレートは3925
bpsとなる。
The sub-frame unit parameter has a long-term prediction lag index of 7 bits, and the long-term prediction lag has a range of 19 samples (421 Hz) to 146 samples (5 samples).
5 Hz). The codebook size of the pulse information codebook is set to 10 bits (1010 code vector,
If 14 vectors are not used), the code vector index is 10 bits. The gain is converted into another parameter for the long-term prediction vector and the one for the statistical code vector, and then vector-quantized and represented by 8 bits.
Therefore, the number of transmission bits per subframe is 25 bits. From the above, the total bit rate is 3925
bps.

【0093】以上説明したように、本発明の実施例で
は、低ビットレート化しても周期成分の再現性が向上
し、高品質化が図れる。また、次数を打ち切ったインパ
ルス応答の組合せによる音源コードブック検索により、
処理量を従来のCELPに比べ低減することができる。
As described above, in the embodiment of the present invention, even if the bit rate is reduced, the reproducibility of the periodic component is improved, and high quality can be achieved. Also, by searching the sound source codebook by the combination of the impulse responses with the order censored,
The processing amount can be reduced as compared with the conventional CELP.

【0094】[0094]

【発明の効果】本発明によれば、CELP符号器を低ビ
ットレート化したときに問題となる周期成分の再現性が
改善され、かつ、雑音音源が不要となるため、4kbp
s以下のビットレートでも良好な音声品質の音声符号器
を提供できる。また、パルス音源の検索処理量を低減で
きるので、低処理量の音声符号器を提供できる。
According to the present invention, the reproducibility of the periodic component, which is a problem when the CELP encoder is reduced in bit rate, is improved, and a noise source is not required.
A speech encoder with good speech quality can be provided even at a bit rate of s or less. Further, since the amount of processing for searching for a pulse sound source can be reduced, a speech encoder with a low processing amount can be provided.

【0095】[0095]

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例の符号化部のブロック
図。
FIG. 1 is a block diagram of an encoding unit according to a first embodiment of the present invention.

【図2】本発明の第1の実施例の復号化部のブロック
図。
FIG. 2 is a block diagram of a decoding unit according to the first embodiment of the present invention.

【図3】従来のCELP符号器の原理説明図。FIG. 3 is a diagram illustrating the principle of a conventional CELP encoder.

【図4】従来のCELP復号器の原理説明図。FIG. 4 is a diagram illustrating the principle of a conventional CELP decoder.

【図5】パルス音源の例。FIG. 5 shows an example of a pulse sound source.

【図6】パルス情報コードブックの構成。FIG. 6 is a configuration of a pulse information codebook.

【図7】パルス音源ベクトル発生の原理説明図。FIG. 7 is a diagram illustrating the principle of generating a pulse sound source vector.

【図8】重み付けの有無によるインパルス応答波形の比
較。
FIG. 8 is a comparison of impulse response waveforms with and without weighting.

【図9】部分相互相関計算法の説明図。FIG. 9 is an explanatory diagram of a partial cross-correlation calculation method.

【図10】簡略化畳み込み演算の説明図。FIG. 10 is an explanatory diagram of a simplified convolution operation.

【符号の説明】[Explanation of symbols]

12…線形予測分析器、14…線形予測パラメータ量子
化器、15,69…線形予測パラメータ量子化コードブ
ック、19…聴覚重み付けフィルタ、21…重み付け合
成フィルタ、25…適応コードブック検索器、26,6
0…適応コードブック、32…パルス音源検索器、3
3,64…パルス発生器,35,62…パルス情報コー
ドブック、39…利得最適化・量子化器、40,57…
利得コードブック、71…合成フィルタ、73…ポスト
フィルタ。
12: linear prediction analyzer, 14: linear prediction parameter quantizer, 15, 69: linear prediction parameter quantization code book, 19: auditory weighting filter, 21: weighting synthesis filter, 25: adaptive codebook searcher, 26, 6
0 ... Adaptive codebook, 32 ... Pulse sound source searcher, 3
3, 64 pulse generator, 35, 62 pulse information codebook, 39 gain optimizer / quantizer, 40, 57
Gain codebook, 71: synthesis filter, 73: post filter.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−346798(JP,A) 特開 平5−165497(JP,A) 特開 平4−55899(JP,A) 特開 平3−101800(JP,A) 特開 平4−107599(JP,A) 特開 平4−58299(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/12 ────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-5-346798 (JP, A) JP-A-5-165497 (JP, A) JP-A-4-55899 (JP, A) 101800 (JP, A) JP-A-4-107599 (JP, A) JP-A-4-58299 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 19/12

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】符号化部において入力音声を予め定めた時
間間隔(フレーム)ごとに短期予測分析を行い、前記フ
レームに等しいかあるいはより短い時間間隔(サブフレ
ーム)ごとに長期予測分析を行い、前記サブフレームご
とに駆動音源として予め用意されたコードブックの中か
ら最適なコードベクトルを選択する符号駆動線形予測
(CELP)音声符号化方法において、前記コードベク
トルは一定振幅で等間隔のパルス列であり、前記最適な
コードベクトルの選択は、前記コードブックの全探索に
よることを特徴とする、音声符号化方法。
An encoding unit performs a short-term prediction analysis of an input speech at predetermined time intervals (frames), and performs a long-term prediction analysis at a time interval (subframe) equal to or shorter than the frame. In a code-driven linear prediction (CELP) speech coding method for selecting an optimal code vector from a code book prepared in advance as a driving sound source for each subframe, the code vector is a pulse train having a constant amplitude and an equal interval. And selecting the optimal code vector by performing a full search of the code book.
【請求項2】前記パルス列の間隔は、人間の発声のピッ
チ周期の変動範囲をほぼカバーする範囲であることを特
徴とする、請求項1記載の音声符号化方法。
2. The speech encoding method according to claim 1, wherein the interval between the pulse trains is a range that substantially covers a variation range of a pitch period of a human utterance.
【請求項3】前記パルス列の前記サブフレームにおける
先頭パルス位置は、前記パルス間隔によらず、前記サブ
フレームの先頭から最終点まで取りうることを特徴とす
る、請求項1から請求項2記載の音声符号化方法。
3. The method according to claim 1, wherein the leading pulse position of the pulse train in the subframe can be set from the beginning to the end of the subframe regardless of the pulse interval. Audio coding method.
【請求項4】前記最適なコードベクトルの選択は、重み
付け入力音声から過去の合成フィルタの影響を除去した
信号から、利得を乗じた重み付き長期予測ベクトルを差
し引いた信号に対して、重み付け誤差の評価を行うこと
によってなされることを特徴とする、請求項1から請求
項3記載の音声符号化方法。
4. The selection of the optimum code vector is performed by subtracting a weighted long-term prediction vector multiplied by a gain from a signal obtained by removing the influence of the past synthesis filter from the weighted input speech, 4. The speech encoding method according to claim 1, wherein the speech encoding is performed by performing an evaluation.
【請求項5】前記重み付け誤差の評価は、長さを前記パ
ルス列の間隔の最小値以下に打ち切った、重み付け合成
フィルタのインパルス応答の組合せに基づいて行われる
ことを特徴とする、請求項1から請求項4記載の音声符
号化方法。
5. The method according to claim 1, wherein the evaluation of the weighting error is performed based on a combination of impulse responses of a weighting synthesis filter whose length is truncated to a value equal to or less than a minimum value of the pulse train interval. The speech encoding method according to claim 4.
【請求項6】前記コードブックにはパルス間隔と先頭パ
ルス位置の情報が格納されており、前記コードベクトル
は、前記情報から生成されることを特徴とする、請求項
1から請求項5記載の音声符号化方法。
6. The code book according to claim 1, wherein the code book stores information on a pulse interval and a leading pulse position, and the code vector is generated from the information. Audio coding method.
JP27699192A 1992-10-15 1992-10-15 Audio coding method Expired - Fee Related JP3232701B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27699192A JP3232701B2 (en) 1992-10-15 1992-10-15 Audio coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27699192A JP3232701B2 (en) 1992-10-15 1992-10-15 Audio coding method

Publications (2)

Publication Number Publication Date
JPH06130994A JPH06130994A (en) 1994-05-13
JP3232701B2 true JP3232701B2 (en) 2001-11-26

Family

ID=17577246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27699192A Expired - Fee Related JP3232701B2 (en) 1992-10-15 1992-10-15 Audio coding method

Country Status (1)

Country Link
JP (1) JP3232701B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US7024355B2 (en) 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
US6449313B1 (en) * 1999-04-28 2002-09-10 Lucent Technologies Inc. Shaped fixed codebook search for celp speech coding
CN101615395B (en) 2008-12-31 2011-01-12 华为技术有限公司 Methods, devices and systems for encoding and decoding signals

Also Published As

Publication number Publication date
JPH06130994A (en) 1994-05-13

Similar Documents

Publication Publication Date Title
KR100264863B1 (en) Method for speech coding based on a celp model
EP0409239B1 (en) Speech coding/decoding method
JP4550289B2 (en) CELP code conversion
JP3346765B2 (en) Audio decoding method and audio decoding device
US6029128A (en) Speech synthesizer
JPH10187197A (en) Voice coding method and device executing the method
CA2290859C (en) Speech encoding method and speech encoding system
JP3582589B2 (en) Speech coding apparatus and speech decoding apparatus
JPH0944195A (en) Voice encoding device
JP3232701B2 (en) Audio coding method
JPH05265496A (en) Speech encoding method with plural code books
JP3050978B2 (en) Audio coding method
JP3232728B2 (en) Audio coding method
JP3510643B2 (en) Pitch period processing method for audio signal
JP3916934B2 (en) Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus
JP3319396B2 (en) Speech encoder and speech encoder / decoder
JP3299099B2 (en) Audio coding device
JP2968109B2 (en) Code-excited linear prediction encoder and decoder
JP3490325B2 (en) Audio signal encoding method and decoding method, and encoder and decoder thereof
JP3144284B2 (en) Audio coding device
JP3292227B2 (en) Code-excited linear predictive speech coding method and decoding method thereof
JP3552201B2 (en) Voice encoding method and apparatus
JP3192051B2 (en) Audio coding device
JPH11259098A (en) Method of speech encoding/decoding
JPH0519796A (en) Excitation signal encoding and decoding method for voice

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees