JPH10242867A - Sound signal encoding method - Google Patents
Sound signal encoding methodInfo
- Publication number
- JPH10242867A JPH10242867A JP9040404A JP4040497A JPH10242867A JP H10242867 A JPH10242867 A JP H10242867A JP 9040404 A JP9040404 A JP 9040404A JP 4040497 A JP4040497 A JP 4040497A JP H10242867 A JPH10242867 A JP H10242867A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- audio signal
- encoding method
- approximation
- taps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】この発明は、音声,音楽など
の音響信号の、スペクトル包絡特性を表すフィルタを音
源ベクトルで駆動して音響信号を合成する予測符号化に
より、音響信号の信号系列を少ない情報量でディジタル
符号化する高能率音声符号化方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention reduces a signal sequence of an audio signal by performing a predictive coding for synthesizing the audio signal by driving a filter representing a spectral envelope characteristic of an audio signal such as voice or music by a sound source vector. The present invention relates to a high-efficiency speech encoding method for digitally encoding information.
【0002】[0002]
【従来の技術】ディジタル移動体通信において、電波を
効率的に利用したり、音声または音楽蓄積サービス等で
通信回線や記憶媒体を効率的に利用するために、高能率
音声符号化方法が用いられる。現在、音声を高能率に符
号化する方法として、原音声をフレーム(またはサブフ
レーム)と呼ばれる5〜50ms程度の一定間隔の区間
に分割し、その1フレームの音声を周波数スペクトルの
包絡特性を表す線形フィルタの特性と、そのフィルタを
駆動するための駆動音源信号との2つの情報に分離し、
それぞれを符号化する手法が提案されている。この手法
において、駆動音源信号を符号化する方法として、音声
のピッチ周期(基本周波数)に対応すると考えられる周
期成分と、それ以外の成分に分離して符号化する方法が
知られている。この駆動音源情報の符号化法の例とし
て、符号駆動線形予測符号化(Code-Excited Linear Pr
ediction: CELP)がある。上記技術の詳細について
は、文献 M.R. Schroeder and B.S. Atal,“Code-Excit
ed Linear Prediction(CELP):High Quality Spe
ech at Very Low Bit Rates ”,IEEE Proc.ICA
SSP-85, pp.937-940, 1985に記載されている。2. Description of the Related Art In digital mobile communication, a high-efficiency voice encoding method is used in order to efficiently use radio waves or to efficiently use a communication line or a storage medium for a voice or music storage service. . At present, as a method for encoding speech efficiently, an original speech is divided into sections called frames (or subframes) at a fixed interval of about 5 to 50 ms, and the speech of one frame represents an envelope characteristic of a frequency spectrum. Separation into two information, the characteristics of the linear filter and the driving sound source signal for driving the filter,
Techniques for encoding each have been proposed. In this method, as a method of encoding a drive excitation signal, a method of separating and encoding a periodic component considered to correspond to a pitch period (fundamental frequency) of a voice and other components is known. As an example of the encoding method of the drive excitation information, Code-Excited Linear Pr
ediction: CELP). For details of the above technology, refer to the document MR Schroeder and BS Atal, “Code-Excit
ed Linear Prediction (CELP): High Quality Spe
ech at Very Low Bit Rates ”, IEEE Proc. ICA
SSP-85, pp. 937-940, 1985.
【0003】図8に上記符号化方法の構成例を示す。入
力端子1−0に入力された音声xは、線形予測分析部
1−1において、入力音声の周波数スペクトル包絡特性
を表す線形予測パラメータaが計算される。得られた
線形予測パラメータaは線形予測パラメータ符号化部
1−2において、符号化されて線形予測パラメータ復号
部1−3に送られる。また、歪み計算に聴覚特性を考慮
するなど、入力音声のスペクトル情報を利用して歪み計
算を行う場合には、線形予測パラメータaは歪み計算
部1−6へも送られる。線形予測パラメータ復号部1−
3では、受け取った符号から合成フィルタ係数a^を
再生し、合成フィルタ1−5に送る。歪み計算に聴覚特
性を考慮する場合に、歪み計算部1−6において量子化
前の線形予測パラメータaを用いる代わりに、上記復
号された線形予測パラメータa^を歪み計算に使用す
ることもある。なお、線形予測分析の詳細および線形予
測パラメータの符号化例については、例えば古井貞煕著
“ディジタル音声処理”(東海大学出版会)に記載され
ている。ここで、線形予測分析部1−1、線形予測パラ
メータ符号化部1−2、線形予測パラメータ復号部1−
3および合成フィルタ1−5は非線形なものに置き換え
てもよい。FIG. 8 shows a configuration example of the above-mentioned encoding method. For the speech x input to the input terminal 1-0, the linear prediction analysis unit 1-1 calculates a linear prediction parameter a representing the frequency spectrum envelope characteristic of the input speech. The obtained linear prediction parameter a is encoded by the linear prediction parameter encoding unit 1-2 and sent to the linear prediction parameter decoding unit 1-3. In addition, when distortion calculation is performed using spectral information of an input voice, for example, in consideration of auditory characteristics in distortion calculation, the linear prediction parameter a is also sent to the distortion calculation unit 1-6. Linear prediction parameter decoding unit 1-
In the step 3, the synthesis filter coefficient a か ら is reproduced from the received code and sent to the synthesis filter 1-5. When the auditory characteristics are considered in the distortion calculation, the decoded linear prediction parameter a パ ラ メ ー タ may be used in the distortion calculation instead of using the linear prediction parameter a before quantization in the distortion calculation unit 1-6. The details of the linear prediction analysis and examples of encoding the linear prediction parameters are described in, for example, “Digital Speech Processing” by Sadahiro Furui (Tokai University Press). Here, the linear prediction analysis unit 1-1, the linear prediction parameter encoding unit 1-2, and the linear prediction parameter decoding unit 1-
3 and the synthesis filter 1-5 may be replaced with a non-linear filter.
【0004】駆動音源ベクトル生成部1−4では、1フ
レーム分の長さの駆動音源ベクトル候補cを生成し、
合成フィルタ1−5に送る。図9に駆動音源ベクトル生
成部1−4の構成例を示す。適応符号帳2−1からは、
バッファに記憶された直前の過去の駆動音源ベクトル
(既に量子化された直前の1〜数フレーム分の駆動音源
ベクトル)c(t−1)を、ある周期に相当する長さ
で切り出し、その切り出したベクトルをフレームの長さ
になるまで繰り返すことによって、音声の周期成分に対
応する時系列ベクトルの候補va が出力される。上記
「ある周期」とは、歪み計算部1−6における歪みdが
小さくなるような周期が選択されるが、選択された周期
は、一般には音声のピッチ周期に相当することが多い。
固定符号帳2−2からは、音声の非周期成分に対応する
1フレーム分の長さの時系列符号ベクトルの候補vr
が出力される。固定符号帳2−2には入力音声とは独立
に符号化のためのビット数に応じてあらかじめ指定され
た数の候補ベクトルが記憶されている。適応符号帳2−
1および固定符号帳2−2から出力された時系列ベクト
ルの候補は、乗算部2−4,2−5において、それぞれ
重み符号帳2−3において作成された重みga , gr が
乗算され、これら乗算結果は加算部2−6において加算
され、駆動音源ベクトルの候補cとなる。図2の構成
例において、適応符号帳2−1を用いないで、固定符号
帳2−2のみの構成としてもよく、子音部や背景雑音な
どのピッチ周期性の少ない信号を符号化するときには、
ビットを節約するために、適応符号帳2−1を用いない
構成にすることも多い。[0004] A drive excitation vector generation section 1-4 generates a drive excitation vector candidate c having a length of one frame.
Send to synthesis filter 1-5. FIG. 9 shows a configuration example of the driving sound source vector generation unit 1-4. From adaptive codebook 2-1:
The immediately preceding past drive excitation vector stored in the buffer (the drive excitation vector for one to several frames just before quantization) c (t-1) is cut out at a length corresponding to a certain period, and the cut out is performed. was by repeated until the length of the frame vector, candidate v a time series vector corresponding to the period component of the sound is output. As the “certain period”, a period that reduces the distortion d in the distortion calculator 1-6 is selected. In general, the selected period generally corresponds to the pitch period of voice.
From the fixed codebook 2-2, a time-series code vector candidate v r of one frame length corresponding to the aperiodic component of speech
Is output. The fixed codebook 2-2 stores a predetermined number of candidate vectors according to the number of bits for encoding independently of the input speech. Adaptive codebook 2-
Candidate time-series vector outputted from the first and fixed codebook 2-2, in the multiplication unit 2-4 and 2-5, the weights g a created in a weight codebook 2-3 respectively, g r is multiplied These multiplication results are added in an adder 2-6 to become a drive excitation vector candidate c. In the configuration example of FIG. 2, the adaptive codebook 2-1 may not be used, and only the fixed codebook 2-2 may be used. When encoding a signal having a small pitch periodicity such as a consonant part or background noise,
In order to save bits, a configuration that does not use the adaptive codebook 2-1 is often used.
【0005】図8の説明に戻って、合成フィルタ1−5
は、線形予測パラメータ復号部1−3の出力をフィルタ
の係数とする線形フィルタで、駆動音源ベクトル候補
cを入力として再生音声の候補yを出力する。合成
フィルタ1−5の次数すなわち線形予測分析の次数は、
一般に10〜16次程度が用いられることが多い。な
お、既に述べたように、合成フィルタ1−5は非線形な
フィルタでもよい。Returning to the description of FIG. 8, the synthesis filter 1-5
Is a linear filter that uses the output of the linear prediction parameter decoding unit 1-3 as a filter coefficient, and outputs a reproduced sound candidate y using the driving excitation vector candidate c as an input. The order of the synthesis filter 1-5, ie, the order of the linear prediction analysis, is
Generally, about 10 to 16 orders are often used. As described above, the synthesis filter 1-5 may be a non-linear filter.
【0006】歪み計算部1−6では、合成フィルタ1−
5の出力である再生音声の候補yと、入力音声xと
の歪みdを計算する。この歪みの計算は、例えば聴覚重
み付きなど、合成フィルタの係数a^または量子化し
ていない線形予測係数aを考慮にいれて行なうことが
多い。図11に、聴覚重みづきを考慮して歪みを計算す
る構成例を示した。聴覚重みづきは、量子化していない
線形予測パラメータaもしくは量子化された合成フィ
ルタ係数a^を用いた、聴覚重みフィルタの形で構成
される。合成フィルタ4−1から出力される再生音声候
補yは、聴覚重みフィルタ4−2を通され、これは、
同じく聴覚重みフィルタ4−3に通された入力音声との
間で、歪みdが計算される。ここで、聴覚重みフィルタ
4−2,4−3は通常同一のフィルタ係数を用いるた
め、聴覚重みフィルタ4−2,4−3は、距離計算部4
−4の後に1つのフィルタとして入れても等価である
が、処理量の点から、図11に示されるように、距離計
算部4−4の手前で2ケ所に分けて入れることが多い。[0006] In the distortion calculation unit 1-6, the synthesis filter 1-
Then, a distortion d between the reproduced voice candidate y, which is the output of No. 5, and the input voice x is calculated. The calculation of the distortion is often performed in consideration of the coefficient a ^ of the synthesis filter or the non-quantized linear prediction coefficient a, for example, with auditory weighting. FIG. 11 shows a configuration example in which distortion is calculated in consideration of hearing weighting. Perceptual weighting is configured in the form of a perceptual weight filter using unquantized linear prediction parameters a or quantized synthetic filter coefficients a ^. The reproduced voice candidate y output from the synthesis filter 4-1 is passed through an auditory weight filter 4-2,
Similarly, a distortion d is calculated between the input voice and the input voice that has passed through the auditory weight filter 4-3. Here, since the hearing weight filters 4-2 and 4-3 usually use the same filter coefficient, the hearing weight filters 4-2 and 4-3 use the distance calculation section 4-4.
Even if one filter is inserted after -4, it is equivalent. However, in terms of the amount of processing, as shown in FIG. 11, it is often divided into two places before the distance calculation unit 4-4.
【0007】この合成重み計算部1−7について更に述
べると入力時系列音声ベクトルxは聴覚重みフィルタ
4−3を通り、ターゲット音声xw となって、距離計
算部4−4に送られる。一方、駆動音源ベクトル候補
cは、合成フィルタ4−1と聴覚重みフィルタ4−2
を通り、聴覚重み付き再生音声候補ベクトルyw とな
って、距離計算部4−4に送られる。距離計算部4−4
では、ターゲット音声ベクトルxw と再生音声候補ベ
クトルyw の間の距離を測定する。このときの距離尺
度には例えば、 d=‖xw −yw ‖2 (1) といった距離尺度を用いればよい。上記歪み尺度を最小
にするような駆動音源ベクトルが選択される。図9に示
したような駆動音源ベクトル生成の構成を用いる場合に
は、周期符号、固定符号、重み符号が決定される。な
お、聴覚重みフィルタ4−2,4−3は、人間の聴覚特
性を利用して再生音声の雑音感を低減するような歪み計
算をするためのフィルタで、必ずしも用いる必要はな
い。Furthermore the input time series speech vector x and forth passes through the perceptually weighted filter 4-3 This combining weight calculation unit 1-7, and the targeted voice x w, is sent to a distance calculation unit 4-4. On the other hand, the driving sound source vector candidate c includes a synthesis filter 4-1 and an auditory weight filter 4-2.
, And becomes a perceptually weighted reproduced voice candidate vector y w , which is sent to the distance calculator 4-4. Distance calculator 4-4
Then, the distance between the target audio vector x w and the reproduced audio candidate vector y w is measured. The distance measure this time for example, d = ‖x w -y w ‖ 2 (1) such as may be used distance measure. A driving sound source vector that minimizes the distortion measure is selected. In the case of using the configuration of driving excitation vector generation as shown in FIG. 9, a periodic code, a fixed code, and a weight code are determined. Note that the auditory weight filters 4-2 and 4-3 are filters for performing distortion calculation to reduce noise in the reproduced voice using human auditory characteristics, and need not always be used.
【0008】このとき、入力時系列音声ベクトルx
は、入力音声信号そのままの場合もあるが、一般には、
前サブフレームからの影響を差し引いた、時系列信号で
あることが多い。また、図9に示したような駆動音源ベ
クトル生成の構成を用いる場合に、周期符号、固定符
号、重み符号のすべての可能な組み合わせの中から、最
適な組み合わせを1つ選択することは演算処理量の点か
ら難しく、例えば周期符号、固定符号、重み符号の順に
順次決定するか、途中で適宜候補を絞りながら順次探索
し、最後に準最適な組み合わせに決定することが多い。
このように順次決定または順次候補を残しながら探索す
る場合には、先に選択された符号ベクトル(例えば適応
符号ベクトル)に起因する合成成分を入力音声から差し
引き、駆動音源ベクトル候補cには、これから決定し
たいベクトル成分のみ(例えば固定符号ベクトルのみ)
を入力して歪み計算をする場合も多い。At this time, the input time-series speech vector x
May be the input audio signal as it is, but in general,
It is often a time-series signal from which the influence from the previous subframe has been subtracted. In addition, when using the configuration of driving excitation vector generation as shown in FIG. 9, selecting one optimal combination from all possible combinations of the periodic code, the fixed code, and the weight code is an operation process. It is difficult in terms of quantity. For example, it is often determined in the order of, for example, a periodic code, a fixed code, and a weight code, or sequentially searched while appropriately narrowing down candidates, and finally determining a sub-optimal combination.
In the case where the search is performed while sequentially determining or leaving the candidates in this manner, a synthesized component caused by the previously selected code vector (for example, the adaptive code vector) is subtracted from the input speech, and the driving excitation vector candidate c is Only the vector component to be determined (for example, only the fixed code vector)
Is often input to calculate distortion.
【0009】図8において符号帳検索制御部1−8では
各再生音声候補yと入力音声xとの歪みdが最小と
なるような駆動音源符号を選択し、そのフレームにおけ
る駆動音源ベクトルを決定する。なお、図9に示される
適応符号帳2−1、固定符号帳2−2、重み符号帳2−
3よりなる構成とする場合には、周期符号、固定符号お
よび重み符号を選択し、これらを駆動音源符号とする。In FIG. 8, a codebook search control section 1-8 selects a driving excitation code that minimizes the distortion d between each reproduced speech candidate y and input speech x, and determines a driving excitation vector in the frame. . The adaptive codebook 2-1, the fixed codebook 2-2, and the weighted codebook 2- shown in FIG.
In the case of a configuration composed of three, a periodic code, a fixed code, and a weight code are selected, and these are used as the drive excitation code.
【0010】符号帳検索制御部1−8において決定され
た駆動音源符号(周期符号、雑音符号、重み符号)と、
線形予測パラメータ符号化部1−2の出力である線形予
測パラメータ符号は、符号送出部1−9に送られ、利用
の形態に応じて記憶装置に記憶されるか、または通信路
を介して受信側へ送られる。図10に、上記符号化方法
に対応する復号方法の構成例を示した。伝送路または記
憶媒体から入力端子3−0に受信された符号のうち、線
形予測パラメータ符号は線形予測パラメータ復号部3−
2において合成フィルタ係数に復号され、合成フィルタ
3−4および、必要に応じて後処理部3−5に送られ
る。駆動音源符号は、駆動音源ベクトル生成部3−3に
送られ、符号に対応する音源ベクトルが生成される。な
お、駆動音源ベクトル生成部3−3の構成は、図8に示
された符号化方法の駆動音源ベクトル生成部1−4に対
応する構成となる。合成フィルタ3−4は、駆動音源ベ
クトルを入力として、音声を再生する。後処理部3−5
は、再生された音声の雑音感を聴覚的に低下させるよう
な処理(ポストフィルタリングとも呼ばれる)を行う
が、後処理部3−5は処理量削減等の関係から用いられ
ないことも多い。[0010] The excitation code (periodic code, noise code, weight code) determined by codebook search control section 1-8,
The linear prediction parameter code output from the linear prediction parameter coding unit 1-2 is sent to the code transmission unit 1-9 and stored in a storage device or received via a communication channel depending on the form of use. Sent to the side. FIG. 10 shows a configuration example of a decoding method corresponding to the above-described encoding method. Among the codes received at the input terminal 3-0 from the transmission path or the storage medium, the linear prediction parameter code is a linear prediction parameter decoding unit 3-
In step 2, the signal is decoded into a synthesis filter coefficient and sent to the synthesis filter 3-4 and, if necessary, the post-processing unit 3-5. The driving excitation code is sent to driving excitation vector generation section 3-3, and an excitation vector corresponding to the code is generated. The configuration of the driving excitation vector generation unit 3-3 corresponds to the configuration of the driving excitation vector generation unit 1-4 of the encoding method shown in FIG. The synthesis filter 3-4 reproduces a sound by using the driving sound source vector as an input. Post-processing unit 3-5
Performs processing (also referred to as post-filtering) to aurally reduce the sense of noise in the reproduced sound, but the post-processing unit 3-5 is often not used due to a reduction in processing amount or the like.
【0011】[0011]
【発明が解決しようとする課題】CELP方式において
問題となるのは、駆動音源ベクトル候補の選択をするた
めの歪み計算に、非常に多くの演算処理が必要になるこ
とである。この問題に対して、Algebraic Code-Excited
Linear Prediction(ACELP)という方式が提案さ
れている。この方式は、固定符号帳を、フレーム長のベ
クトルパターンとして蓄えるのではなく、高さが1のパ
ルスを、フレーム内に数本、例えば、40サンプルのフ
レームまたはサブフレームに対して、4本、適当な位置
に立てることによって、固定符号ベクトルとする方式
で、この駆動音源方式の採用と、歪み計算において演算
順序を工夫することによって、従来の方式に比べて演算
処理を大幅に減らすことができる。なお、ACELP方
式の詳細は、例えば、文献,R. Salami, C. Laflamme,
and J-P. Adoul, “ 8 kbit/s ACELP Coding of
Speech with 10 ms Speech-Frame: a Candidate for C
CITTStandardization ”,IEEE Proc. ICASSP-
94, pp.II-97に記載されている。また、同様の処理概念
にもとづき、より高品質かつより低演算量の方法とし
て、この発明者等が既に出願した「音響信号符号化方法
及び音響信号復号化方法」(特願平7−150550)
がある。この方式では、固定符号ベクトルとして、高さ
が1のパルスのかわりに、隣接する2〜数サンプルを単
位とし、高さ情報を持つパルスパタンをフレーム内に配
置する手法を用いることによって、より低演算量と高品
質を両立している。A problem in the CELP system is that a great deal of arithmetic processing is required for calculating a distortion for selecting a driving excitation vector candidate. Algebraic Code-Excited
A method called Linear Prediction (ACELP) has been proposed. This method does not store a fixed codebook as a vector pattern of a frame length, but rather stores several pulses of height 1 in a frame, for example, four pulses in a frame or subframe of 40 samples. By adopting this driving excitation method in a method of setting a fixed code vector by setting it at an appropriate position, and devising the calculation order in distortion calculation, the calculation processing can be significantly reduced as compared with the conventional method. . The details of the ACELP method are described in, for example, Literature, R. Salami, C. Laflamme,
and JP. Adoul, “8 kbit / s ACELP Coding of
Speech with 10 ms Speech-Frame: a Candidate for C
CITT Standardization ”, IEEE Proc. ICASSP-
94, pp. II-97. Also, based on the same processing concept, as a method of higher quality and lower operation amount, “Acoustic signal encoding method and acoustic signal decoding method” already filed by the present inventors (Japanese Patent Application No. 7-150550).
There is. In this method, as a fixed code vector, instead of a pulse having a height of 1, adjacent two to several samples are used as a unit, and a method of arranging a pulse pattern having height information in a frame is used, thereby achieving a lower calculation. It balances quantity and high quality.
【0012】しかしながら、これらの方式においては、
歪み計算に合成フィルタまたは聴覚重みづきフィルタ、
またはそれらを合わせたフィルタを、インパルス応答ま
たはFIR型のフィルタで表現することが多いが、フレ
ームまたはサブフレームが長くなると、IIR型フィル
タを用いる場合と等価な結果を得るためのFIRフィル
タのタップ数が長くなり、演算量が従来方式に比べて逆
に増加してしまうばかりでなく、歪み計算において計算
の途中結果を格納するために、著しく大量のメモリが必
要になるなどの問題がある。したがって、上記方法をそ
のまま、一般にサブフレームを長くする低ビットレート
音声符号化に利用することは難しい。However, in these systems,
Synthesis filter or auditory weighting filter for distortion calculation,
Or, a filter combining them is often expressed by an impulse response or FIR type filter. However, when the frame or subframe becomes longer, the number of taps of the FIR filter to obtain a result equivalent to the case of using an IIR type filter Not only increases the amount of computation in comparison to the conventional method, but also has a problem that an extremely large amount of memory is required in order to store an intermediate result of the calculation in the distortion calculation. Therefore, it is difficult to use the above method as it is for low bit rate audio coding that generally lengthens a subframe.
【0013】一方図11の構成において、駆動音源ベク
トル候補cを合成フィルタ4−1と聴覚重みづきフィ
ルタ4−2に通す操作を、高速に実行するためには、こ
れらの2つのフィルタを合わせて、等価なフィルタ特性
を持つ1つの聴覚重み付き合成フィルタとするとよい。
等価な1つのフィルタとするには、例えば合成フィルタ
4−1の入力から聴覚重みフィルタ4−2の出力までの
インパルス応答をフィルタ係数とすFIRフィルタで表
現することができる。On the other hand, in the configuration of FIG. 11, in order to execute the operation of passing the driving sound source vector candidate c through the synthesis filter 4-1 and the auditory weighting filter 4-2 at high speed, these two filters must be combined. , A single auditory weighted synthesis filter having equivalent filter characteristics.
In order to make an equivalent one filter, for example, it is possible to represent an impulse response from the input of the synthesis filter 4-1 to the output of the auditory weight filter 4-2 as a filter coefficient by using an FIR filter.
【0014】図12は上記1つの等価なフィルタで表現
する構成において、更に高速な歪み計算を実現する構成
である。例えば、FIRフィルタ表現された聴覚重み付
き合成しフィルタを、有限タップで打ち切ったり、短い
タップ数のARフィルタで近似したりして、あるいはF
IRフィルタのタップ数を、IIRフィルタの場合と等
価な結果を得るのに必要なタップ数よりも減らすなどの
方法による厳密にはフィルタ特性の一致しない聴覚重み
付き合成近似フィルタ5−2で代用する。これによって
合成歪み計算における演算処理量およびメモリ量を減ら
すことができる。しかしながら、図12の構成を用いた
場合、近似フィルタ5−2のフィルタ特性と、元の合成
フィルタ4−1および聴覚重み付きフィルタ4−2の特
性との差が大きくなると、近似誤差によって適当な駆動
音源符号が選択されなくなり、再生音声の著しい品質劣
化につながるため、事実上、サブフレームを長くとるこ
と、すなわちビットレートを低くすることは不可能であ
った。FIG. 12 shows a configuration for realizing higher-speed distortion calculation in the configuration expressed by the one equivalent filter. For example, an auditory weighted synthesis filter expressed by an FIR filter is truncated with a finite tap, approximated by an AR filter with a short tap number, or
The number of taps of the IR filter is reduced by a method such as reducing the number of taps required to obtain a result equivalent to that of the IIR filter by a perceptually weighted synthetic approximation filter 5-2 whose filter characteristics do not exactly match each other. . As a result, the amount of arithmetic processing and the amount of memory in the composite distortion calculation can be reduced. However, when the configuration of FIG. 12 is used, if the difference between the filter characteristics of the approximation filter 5-2 and the characteristics of the original synthesis filter 4-1 and the perceptual weighting filter 4-2 increases, an appropriate Since the driving excitation code is no longer selected, which leads to a remarkable deterioration in the quality of the reproduced voice, it was practically impossible to take a longer subframe, that is, lower the bit rate.
【0015】この発明の目的は、低いビットレート、か
つ安価なプロセッサで許容される範囲内の少ないメモリ
量、少ない演算量で、高品質な再生音声が得られるよう
な、音声または音楽などの音響信号をディジタル符号化
する方法を提供することにある。SUMMARY OF THE INVENTION It is an object of the present invention to provide a sound such as a sound or a music which can obtain a high quality reproduced sound with a small bit rate, a small memory amount within a range allowed by an inexpensive processor, and a small calculation amount. It is to provide a method for digitally encoding a signal.
【0016】[0016]
【課題を解決するための手段】この発明では、FIR型
合成フィルタのタップを途中で打ち切るなどの高速に歪
み計算ができるように簡略化した近似フィルタを合成歪
み計算に用い、この近似フィルタで表現したことにもと
づき生じる近似誤差を、入力音声に付加し、これを符号
帳探索時のターゲットベクトルとする。According to the present invention, an approximate filter which is simplified so that distortion can be calculated at a high speed such as cutting off the tap of the FIR type synthesis filter in the middle is used for the synthesis distortion calculation, and the approximation filter is expressed by this approximation filter. The approximation error generated based on the above is added to the input speech, and this is used as a target vector at the time of codebook search.
【0017】この構成により近似による影響を歪み計算
において、相殺し、サブフレームの長い場合でも、非常
に少ないメモリ量、処理量で、高品質な低ビットレート
符号化方法を実現する。With this configuration, the influence of the approximation is canceled in the distortion calculation, and a high quality low bit rate encoding method can be realized with a very small amount of memory and processing amount even when the subframe is long.
【0018】[0018]
【発明の実施の形態】この発明の実施例を図1に示す。
入力端子6−0よりの入力音声xは、量子化された
(復号された)合成フィルタ係数a^による合成フィ
ルタの逆フィルタ(合成逆フィルタ)6−3を通り、理
想の(量子化しない)駆動音源ベクトルrに変換され
る。rは、図11において駆動音源ベクトル候補c
を入力とする合成フィルタ4−1に通したときに、入力
音声xとの歪みがゼロになる理想の駆動音源ベクトル
である。理想駆動音源ベクトルrは、聴覚重み付き合
成近似フィルタ5−2と同じ特性の聴覚重み付き合成近
似フィルタ6−4を通って変形ターゲット音声ベクトル
x′w となる。この時、聴覚重み付き合成フィルタ5
−2で生じる近似誤差と同様の近似誤差が変形ターゲッ
ト音声ベクトルx′w に付加されたものとなる。距離
計算部4−4では、聴覚重み付き合成近似フィルタ5−
2の出力である、近似誤差を含んだ聴覚重み付き再生音
声候補y′ w と、変形ターゲット音声ベクトルx′
w との間の距離を計算する。従ってこの距離計算におい
ては聴覚重み付き合成近似フィルタ5−2で生じる近似
誤差は、聴覚重み付き合成近似フィルタ6−4で付加さ
れた近似誤差と、距離計算の際に相殺され、歪みd(距
離)を高い精度で計算できる。FIG. 1 shows an embodiment of the present invention.
The input voice x from the input terminal 6-0 is quantized.
The synthesized filter by the (decoded) synthesized filter coefficient
Through the filter inverse filter (synthetic inverse filter) 6-3
Is converted into the imaginary (non-quantized) driving sound source vector r
You. r is a driving sound source vector candidate c in FIG.
Is passed through the synthesis filter 4-1 which takes
Ideal driving sound source vector with zero distortion from voice x
It is. The ideal driving sound source vector r is
An auditory weighted synthetic near having the same characteristics as the synthetic approximation filter 5-2
Deformed target speech vector through similar filter 6-4
x 'wBecomes At this time, the auditory weighted synthesis filter 5
The approximation error similar to the approximation error generated at -2
G speech vector x 'wWill be added to. distance
In the calculation unit 4-4, a perceptually weighted synthetic approximation filter 5-
2. The reproduced sound with auditory weights containing approximation error, which is the output of 2.
Voice candidate y ' wAnd the transformed target speech vector x ′
wCalculate the distance between So in this distance calculation
Approximation generated by the synthetic approximation filter 5-2 with auditory weights
The error is added by the perceptually weighted synthetic approximation filter 6-4.
And the distortion d (the distance d)
Can be calculated with high accuracy.
【0019】図2は、図1におけるこの発明による方法
において、合成近似フィルタ5−2,6−4を具体的に
有限タップ長FIRフィルタ7−2,7−4の形で表現
したものである。このときのタップ数は、サブフレーム
長と同じ点数のタップ数を用いると、近似計算を用いな
い従来の方法と符号化結果が一致するが、演算処理量は
多くなる。一方、タップ数を過去のサンプル値を用いな
い1タップ(これを0タップと呼ぶこともある)に設定
すると、駆動音源ベクトル候補cと理想駆動音源ベク
トルrとの間の歪みを、駆動音源レベルで測定する符
号化方法になり、演算処理量は極めて少なくなるが、十
分な符号化品質が得られない。タップ数は符号化品質と
演算処理量のバランスを考慮して、1からサブフレーム
長(サブフレームのサンプル数)の範囲で決定すること
になるが、この発明による方法では、サブフレームが例
えば80サンプルのときに、タップ数を2〜6タップ程
度まで減らしても、有限タップ長FIR型聴覚重み付き
合成フィルタ7−2で生じる近似誤差が、ターゲット音
声xに対しても有限タップ長FIR型聴覚重み付き合
成フィルタ7−4に付加されるため、実際の音声を符号
化したときの信号対雑音比(SNR)、聴覚的品質と
も、ほとんど劣化しないことを確認している。FIG. 2 specifically shows the synthesis approximation filters 5-2 and 6-4 in the form of the finite tap length FIR filters 7-2 and 7-4 in the method according to the present invention in FIG. . If the number of taps at this time is the same as the number of taps of the subframe length, the encoding result matches that of the conventional method that does not use approximation calculation, but the amount of computation increases. On the other hand, if the number of taps is set to one tap that does not use a past sample value (this may be referred to as zero tap), the distortion between the driving sound source vector candidate c and the ideal driving sound source vector r is reduced by the driving sound source level. , And the amount of calculation processing is extremely small, but sufficient coding quality cannot be obtained. The number of taps is determined in the range of 1 to the subframe length (the number of samples of the subframe) in consideration of the balance between the coding quality and the amount of calculation processing. Even when the number of taps is reduced to about 2 to 6 taps in the case of a sample, the approximation error generated in the finite tap length FIR type auditory weighted synthesis filter 7-2 causes the finite tap length FIR type auditory Since it is added to the weighted synthesis filter 7-4, it has been confirmed that the signal-to-noise ratio (SNR) and the perceptual quality when actual speech is encoded hardly deteriorate.
【0020】図3は、駆動音源ベクトル生成部1−4の
構成例において、固定符号ベクトル候補vr をピッチ
周期化して用いる構成例である。前記ACELP方式
や、「音響信号符号化方法及び音響信号復号化方法」
(特願平7−150550)でも図3に示す構成が用い
られている。ピッチ周期化部8−7には、適応符号帳に
入力される周期符号と同一の周期符号が入力され、周期
符号に対応する周期で固定符号帳2−2の出力vr を
周期化する。具体的な周期化操作は、固定符号ベクトル
vr に周期符号に対応するタップ位置のコムフィルタ
(櫛形フィルタ)をかけることが多い。またタップ位置
は、整数サンプル位置でもよいし、非整数サンプル位置
のコムフィルタを、アップサンプリングの手法を用いて
実現してもよい。[0020] Figure 3, in the configuration example of the driving excitation vector generation unit 1-4 is a configuration example using a fixed code vector candidates v r and a pitch periodic. The ACELP method and “Acoustic signal encoding method and acoustic signal decoding method”
The configuration shown in FIG. 3 is also used in Japanese Patent Application No. 7-150550. The pitch period section 8-7, cycle codes same period code and inputted to the adaptive codebook is input to the period of the output v r of the fixed codebook 2-2 at a period corresponding to the period code. As a specific periodic operation, a comb filter (comb filter) at a tap position corresponding to the periodic code is often applied to the fixed code vector v r . The tap position may be an integer sample position, or a comb filter at a non-integer sample position may be realized using an upsampling technique.
【0021】図3の構成において、通常、適応符号帳8
−1を探索するときには、固定符号帳2−2がないもの
として最適な周期符号(または、歪みが小さくなる複数
個の周期符号候補)を探索し、固定符号帳2−2を探索
するときには、適応符号ベクトルを合成して得られる適
応符号帳成分ya を、あらかじめ入力音声xから除
いたものを入力xr として、固定符号ベクトルvr
を合成して得られる成分yrpとxr との間の歪みが
最小になるような固定符号を探索するという手法が用い
られる。この手法を用いる場合の、固定符号ベクトル合
成歪み計算方法の構成例を図4に示す。図3におけるピ
ッチ周期化部8−7は、乗算部2−5と順序を入れ替え
ることができるため、図4に示すように、乗算部2−5
と合成フィルタ4−1の間にピッチ周期化部8−4を入
れることができる。固定符号ベクトルvr は乗算部2
−5に送られる。乗算部2−5ではvr に重みgr を
かけて駆動音源ベクトル候補cr を生成し、ピッチ周
期化部8−4に送る。c r はピッチ周期化された後、
合成フィルタ4−1を通って再生音声候補yrpとな
り、聴覚重みフィルタ9−6を通って、距離計算部4−
4に送られる。このとき、ピッチ周期化部8−4、合成
フィルタ4−1、聴覚重みフィルタ4−2は3つのフィ
ルタ特性を合成した特性を持つ1つのフィルタで表現す
ると、探索にかかる演算処理量を削減することできる。
しかしながら、上記8−4,4−1,4−2の3つのフ
ィルタの合成特性を持つフィルタをFIRフィルタで表
現した場合、合成フィルタ9−5や聴覚重みフィルタ9
−6の特性を持つFIRフィルタと違って、ピッチ周期
に相当すると考えられる周期のタップ位置付近に大きな
値の係数を持つため、図2に示す構成例のように、短い
タップ数でフィルタ係数を打ち切ってさらに高速な探索
をすることができない。In the configuration shown in FIG.
When searching for -1, when there is no fixed codebook 2-2
As the optimal periodic code (or multiple
Number of periodic code candidates) and the fixed codebook 2-2.
The adaptive code vector obtained by combining the adaptive code vectors.
Codebook component yaFrom the input voice x in advance.
Enter what you have xrAs a fixed code vector vr
Component y obtained by synthesizingrpAnd xrThe distortion between
The technique of searching for a fixed code that minimizes
Can be When this method is used, the fixed code vector
FIG. 4 shows a configuration example of the formation distortion calculation method. In FIG.
Switch 8-8 switches the order with the multiplier 2-5.
Therefore, as shown in FIG.
And a pitch filter 8-4 between the synthesizing filter 4-1.
Can be Fixed sign vector vrIs the multiplier 2
-5. In the multiplication unit 2-5, vrWeight grTo
Multiplied driving sound source vector candidate crGenerate the pitch circumference
It is sent to the initialization unit 8-4. c rIs pitch-periodicized,
Reproduction voice candidate y through synthesis filter 4-1rpTona
And passes through the auditory weight filter 9-6 to the distance calculation unit 4-
4 At this time, the pitch periodization unit 8-4,
The filter 4-1 and the auditory weight filter 4-2 have three filters.
Expressed by a single filter that has the combined characteristics of the filter characteristics
Then, it is possible to reduce the amount of arithmetic processing required for the search.
However, the three flags 8-4, 4-1 and 4-2 described above.
Filters with filter synthesis characteristics are represented by FIR filters.
In this case, the synthesis filter 9-5 and the auditory weight filter 9
Unlike the FIR filter with the characteristic of -6, the pitch period
Large near the tap position of the cycle considered to correspond to
As shown in the configuration example of FIG.
Faster search by truncating the filter coefficient with the number of taps
Can not do.
【0022】この問題を解決し、ピッチ周期化のある場
合でも高速に歪みを計算するこの発明の実施例を図5に
示す。図5の構成例では、図1に示す構成例と同様に、
図4における合成フィルタ4−1と聴覚重みフィルタ4
−2の特性を合わせ持つフィルタを、聴覚重み付き合成
近似フィルタ5−2に置き換える。図1の構成例と同様
に、近似によって生じる歪みを入力側との間で相殺でき
るように、入力xrは合成逆フィルタ6−3を通し、
フィルタ5−2と同じ特性の聴覚重み付き合成近似フィ
ルタ6−4を通すが、この構成例では、図4におけるピ
ッチ周期化フィルタ8−4の逆フィルタ(ピッチの周期
性を取り除くフィルタ)10−4を、音声xの入力側
に入れる。この構成において、聴覚重み付き合成近似フ
ィルタ5−2,6−4を、図2に示す構成例と同様に、
有限タップ長FIR形聴覚重み付き合成フィルタで置き
換えれば、非常に高速に符号帳の探索をすることができ
る。このときのFIRフィルタのタップ長は、図2の構
成例と同様に、過去のサンプル値を用いない1タップ
(0タップと呼ぶこともある)から、サブフレーム長ま
での間で、符号化品質と演算処理量とのバランスを考慮
して決められるが、この発明による方法では、サブフレ
ームが80点のときに、タップ数を2〜6タップ程度ま
で減らしても、実際の音声を符号化したときの、信号対
雑音比(SNR)、聴覚的品質とも、ほとんど劣化しな
いことを確認している。なお、図5の構成例において、
合成逆フィルタ6−3、ピッチ周期化逆フィルタ10−
4、聴覚重み付き合成近似フィルタ6−4が、すべて線
形フィルタのときには、それらの順序を交換してもよ
い。FIG. 5 shows an embodiment of the present invention which solves this problem and calculates distortion at a high speed even in the case of pitch period. In the configuration example of FIG. 5, similarly to the configuration example shown in FIG.
Synthesis filter 4-1 and auditory weight filter 4 in FIG.
The filter having the characteristic of -2 is replaced with the perceptually weighted synthetic approximation filter 5-2. As in the configuration example of FIG. 1, the input xr is passed through a synthetic inverse filter 6-3 so that distortion caused by approximation can be canceled between the input side and the input side.
The synthetic approximation filter 6-4 having the same characteristics as the filter 5-2 is passed through the auditory weight, but in this configuration example, an inverse filter (filter for removing the periodicity of the pitch) 10- of the pitch periodicization filter 8-4 in FIG. 4 is input to the input side of the voice x. In this configuration, the synthesis approximation filters 5-2 and 6-4 with auditory weights are replaced with the configuration example shown in FIG.
If a finite tap length FIR-type auditory weighted synthesis filter is used, the codebook can be searched very quickly. The tap length of the FIR filter at this time ranges from one tap (sometimes referred to as zero tap) that does not use a past sample value to the subframe length, as in the configuration example of FIG. In the method according to the present invention, even when the number of taps is reduced to about 2 to 6 taps, the actual audio is encoded in the method according to the present invention. At that time, it was confirmed that the signal-to-noise ratio (SNR) and the auditory quality hardly deteriorated. In the configuration example of FIG. 5,
Synthetic inverse filter 6-3, pitch periodic inverse filter 10-
4. When all of the hearing weighted synthesis approximation filters 6-4 are linear filters, their order may be exchanged.
【0023】図6は、この発明による方法において、F
IRフィルタを有限長で打ち切っても符号化音の品質劣
化が非常に少ない利点を用いて、効率的に歪み計算を実
施し、非常に高速な音声符号化を実現する構成例を示し
たものである。有限タップ長FIR型聴覚重み付き合成
フィルタ係数算出部11−1では、合成フィルタ係数
a^と量子化していない線形予測パラメータaか
ら、合成フィルタと聴覚重み付きフィルタを合わせた特
性を持つ、聴覚重み付き合成フィルタをFIR型で実現
したときのフィルタ係数を算出し、このフィルタ係数を
有限タップ長で打ち切った係数βを出力する。インパ
ルス応答行列生成部11−2では、下記式(2)に示す
ように、FIRフィルタ係数を要素とする三角行列を生
成する。ここで、Nはサブフレームのサンプル数を表
す。式(2)において、係数βは有限長で打ち切るた
め、例えば打ち切り次数をkとすると、βk からβN-1
までは0であって、式(3)のような行列となる。FIG. 6 shows that in the method according to the invention, F
This shows an example of a configuration in which the distortion calculation is performed efficiently and an extremely high-speed speech encoding is realized, with the advantage that the quality degradation of the encoded sound is very small even if the IR filter is truncated to a finite length. is there. The finite tap length FIR type hearing weighted synthetic filter coefficient calculating unit 11-1 has a perceptual weight having a combined characteristic of a synthetic filter and a perceptual weighted filter from the pertinent synthetic filter coefficient a ^ and the unquantized linear prediction parameter a. A filter coefficient when the attached synthesis filter is realized by the FIR type is calculated, and a coefficient β obtained by truncating the filter coefficient by a finite tap length is output. The impulse response matrix generation section 11-2 generates a triangular matrix having FIR filter coefficients as elements as shown in the following equation (2). Here, N represents the number of samples of the subframe. In equation (2), since the coefficient β is truncated to a finite length, for example, if the truncation order is k, β k to β N−1
Up to 0, which is a matrix as shown in equation (3).
【0024】 このとき上記行列の要素が0の部分は、メモリなどに記
憶しておく必要がない。相関行列生成部11−3では、
上記インパルス応答行列Hから、H tHを計算す
る。このとき、係数のβk からβN-1 までは0であるの
で、N×Nの行列計算をする必要がなく、k×kの行列
計算でH tHを求めることができる。例えば、k
は、2から6の値に設定しても符号化音の品質がほとん
ど劣化しないため、N=80のときに、80×80の行
列計算に比べて、例えば5×5の行列計算は著しい演算
処理量の削減となる。適応符号帳成分を除いた入力音声
x r は、合成逆フィルタ6−3を通り、ピッチ周期化
逆フィルタ10−4を通って、畳み込み部11−6に入
力される。畳み込み部11−6では、ピッチ周期化逆フ
ィルタ10−4の出力rp を、係数βのFIRフィ
ルタを通して、タップ打ち切り歪みを含むターゲット音
声x′rpを求め、x′rpとH行列を、時間軸反転
畳み込み操作もしくは行列演算によって、x′rp t
H(At は行列Aの転置を示す)を計算する。このと
きも打ち切り次数kを小さくとっていれば、非常に高速
に計算を行うことができる。畳み込み部11−6は、別
の手法を用いることもでき、相関行列計算部11−3の
出力H tHと、ピッチ逆周期化フィルタ11−5の
出力rp から、行列演算によって、rp t (H t
H)を計算することもできる。このとき、上記x′
rp t Hとrp t (H tH)は値が一致する。最
終距離尺度計算部11−7では駆動音源ベクトル候補の
固定符号帳成分cr と、H tH,x′rp t H
(またはrp t H tH)から、距離尺度 d′=(x′rp t Hcr )2 /(cr t H tHcr )(4) を計算する。d′は符号帳検索制御部に送られ、距離尺
度d′が最大になる(歪み尺度dが最小になることと等
価な)符号が選択される。[0024]At this time, the part where the element of the matrix is 0 is recorded in the memory etc.
No need to remember. In the correlation matrix generation unit 11-3,
From the impulse response matrix H, HtCalculate H
You. At this time, the coefficient βkFrom βN-1Up to 0
It is not necessary to perform an N × N matrix calculation, and a k × k matrix
H by calculationtH can be determined. For example, k
Means that the quality of the coded sound is almost
80 × 80 rows when N = 80
Compared to column calculation, for example, 5 × 5 matrix calculation is a remarkable operation
The processing amount is reduced. Input speech without adaptive codebook components
x rPasses through the synthesis inverse filter 6-3, and is pitch-cycled
It passes through the inverse filter 10-4 and enters the convolution unit 11-6.
Is forced. In the convolution unit 11-6, the pitch period reverse
Output r of filter 10-4pIs the FIR filter of coefficient β
Target sound including tap truncation distortion
Voice x 'rpX 'rpAnd H matrix, time axis inversion
X ′ by convolution or matrix operationrp t
H (AtIndicates the transpose of matrix A). This and
Very high speed if the cutoff order k is small
Can be calculated. Folding section 11-6 is separate
Can be used, and the correlation matrix calculation unit 11-3
Output HtH and the pitch inverse periodic filter 11-5
Output rpFrom the matrix operation, rp t(Ht
H) can also be calculated. At this time, the above x '
rp tH and rp t(HtH) has the same value. Most
In the final distance scale calculation unit 11-7, the driving sound source vector candidate
Fixed codebook component crAnd HtH, x 'rp tH
(Or rp tH tH), the distance scale d '= (x'rp tHcr)Two/ (Cr tHtHcr) (4) is calculated. d 'is sent to the codebook search control unit,
The degree d 'is maximized (e.g., the distortion measure d is minimized)
Value) code is selected.
【0025】上述において、合成近似フィルタとしては
必ずしも聴覚重み付き特性を与えたものでなくてもよ
い。なお特許請求の範囲において「フレーム」はフレー
ムと、これを分割したサブフレームとの何れでもよい。In the above description, the synthetic approximation filter does not necessarily need to be one having the auditory weighting characteristic. In the claims, the “frame” may be either a frame or a sub-frame obtained by dividing the frame.
【0026】[0026]
【発明の効果】この発明の効果を確認するため下記の実
験を行った。4.6kbit/sのDual−Pulse
CS−CELPを構成した。フレーム長は20ms、サ
ブフレーム長は10ms(80点)とし、LPCの量子
化はフレーム毎、その他はサブフレーム毎に行う。ビッ
ト配分はフレーム当り、LSP22ビット、適応符号8
×2ビット、Dual−Pulse符号20×2利得符
号7×2(計92(4.6kbit/s))とし、Dual
Pulseは、1サブフレームあたり3組配置し、位
置11ビット、パタン6ビット、正負符号3ビットを割
り当てる。The following experiments were conducted to confirm the effects of the present invention. 4.6kbit / s Dual-Pulse
CS-CELP was configured. The frame length is 20 ms, the sub-frame length is 10 ms (80 points), and LPC quantization is performed for each frame, and the rest is performed for each sub-frame. Bit allocation is LSP 22 bits per frame, adaptive code 8
× 2 bits, Dual-Pulse code 20 × 2, gain code 7 × 2 (92 (4.6 kbit / s) in total)
Pulses are arranged in three sets per subframe, and 11 bits for the position, 6 bits for the pattern, and 3 bits for the sign are assigned.
【0027】上記符号化器に実音声データを入力して、
この発明方法の性能を調べた。音声データは、8kHz
サンプリングで、ITU−T G.712帯域のフィル
タをかけたものを用いた。図7に、FIRフィルタのタ
ップを有限長で打ち切ったときの、打ち切りの次数とW
SNRの関係を示した。WSNRは、最終的な合成音と
入力音声との間で測定しているため、打ち切りのタップ
数にかかわらず同一の尺度である。図中の方法(1)
は、歪みを最小化するターゲット音声を従来の方法で求
め、符号帳探索のためのフィルタのタップのみ打ち切っ
た場合である。この場合は、20タップ以下になると急
速に品質が劣化している。方法(2)はピッチ周期化逆
フィルタを用いない図2に示したこの発明方法を適用し
た場合である。この方法を用いると、タップ数が2程度
まではWSNRにほとんど変化がない。方法(3)はピ
ッチ周期化逆フィルタを用いる図6に示したこの発明方
法を適用した場合である。4.6kbit/sのDual−
Pulse CS−CELPは、Dual Pulse
をピッチ周期化して駆動音源に用いるため、方法(3)
を用いることによって非常に高速な符号化を実現でき
る。この場合の品質を方法(2)の場合と比較すると、
全体的に0.3dB程度低下しているものの、方法
(2)の場合と同様に、タップ数を減らしてもWSNR
はあまり低下しなかった。Inputting the actual audio data to the encoder,
The performance of the inventive method was investigated. Audio data is 8kHz
In sampling, ITU-TG. 712 band filters were used. FIG. 7 shows the cutoff order and W when the tap of the FIR filter is cut off at a finite length.
The relationship of SNR was shown. Since the WSNR is measured between the final synthesized speech and the input speech, the WSNR has the same scale irrespective of the number of taps for censoring. Method (1) in the figure
Is a case where a target speech for minimizing distortion is obtained by a conventional method, and only taps of a filter for searching a codebook are cut off. In this case, the quality rapidly deteriorates when the number of taps becomes equal to or less than 20 taps. The method (2) is a case where the method of the present invention shown in FIG. 2 without using the pitch periodic inverse filter is applied. With this method, the WSNR hardly changes until the number of taps is about two. Method (3) is a case in which the method of the present invention shown in FIG. 6 using a pitch period inverse filter is applied. 4.6 kbit / s Dual-
Pulse CS-CELP is Dual Pulse
Method (3) in which the pitch period is used for the driving sound source
, Very high-speed encoding can be realized. Comparing the quality in this case with that of method (2),
Although it is reduced by about 0.3 dB as a whole, as in the case of the method (2), even if the number of taps is reduced, the WSNR is reduced.
Did not drop much.
【0028】聴感上も6タップ程度使えば、全タップ使
用する場合に比べてほとんど劣化が感じられない。ま
た、方法(3)は方法(2)に比べてわずかに劣化が感
じられる程度である。以上述べたようにこの発明によれ
ば、非常に少ないタップ数で打ち切り、高速な符号帳探
索、つまり高速な音声符号化を実現した場合でも、品質
の劣化が非常に少ないことが確認された。In terms of audibility, if about 6 taps are used, deterioration is hardly felt as compared with the case where all taps are used. Further, the method (3) is slightly deteriorated as compared with the method (2). As described above, according to the present invention, it has been confirmed that quality degradation is extremely small even when the cutoff is performed with a very small number of taps and a high-speed codebook search, that is, a high-speed voice coding is realized.
【図1】この発明における近似誤差を含んだ聴覚重み付
き再生音声候補と、同じく近似誤差を含んだ変形ターゲ
ット音声との間の距離を計算する方法の機能構成を示す
図。FIG. 1 is a diagram showing a functional configuration of a method of calculating a distance between a perceptually weighted reproduced speech candidate including an approximation error and a deformed target speech also including an approximation error according to the present invention.
【図2】図1に示した方法において、聴覚重み付き合成
近似フィルタを有限タップ長FIRフィルタの形で表現
する例を示す機能構成図。FIG. 2 is a functional configuration diagram showing an example of expressing a synthetic approximation filter with auditory weights in the form of a finite tap length FIR filter in the method shown in FIG. 1;
【図3】駆動音源ベクトル生成部の構成において、固定
符号ベクトル候補をピッチ周期化して用いる機能構成例
を示す図。FIG. 3 is a diagram illustrating an example of a functional configuration in which a fixed code vector candidate is pitch-periodically used in a configuration of a driving excitation vector generation unit.
【図4】図3の構成を用いる場合の、固定符号ベクトル
合成歪み計算方法の機能構成例を示す図。FIG. 4 is a diagram showing an example of a functional configuration of a method for calculating a fixed code vector combination distortion when the configuration in FIG. 3 is used.
【図5】図3に示すピッチ周期化のある場合に、この発
明を適用し、ピッチ周期化逆フィルタを入力側に入れた
歪み計算方法の機能構成を示す図。FIG. 5 is a diagram showing a functional configuration of a distortion calculation method to which the present invention is applied and a pitch period inverse filter is provided on the input side in a case where there is pitch period shown in FIG. 3;
【図6】この発明方法で、FIRフィルタを有限長で打
ち切って効率的に歪み計算を実施し、非常に高速な音声
符号化を実現する方法の機能構成例を示す図。FIG. 6 is a diagram showing an example of a functional configuration of a method for realizing a very high-speed speech encoding by truncating an FIR filter to a finite length and efficiently performing a distortion calculation according to the method of the present invention;
【図7】この発明を実際の音声符号化に適用した場合
の、FIRフィルタタップの打ち切り次数とWNSRの
関係を示すグラフ。FIG. 7 is a graph showing the relationship between the cutoff order of FIR filter taps and WNSR when the present invention is applied to actual speech coding.
【図8】音声の符号駆動線形予測符号化(Code-Excited
Linear Prediction:CELP)の機能構成例を示す
図。FIG. 8: Code-driven linear prediction coding (Code-Excited)
FIG. 3 is a diagram illustrating a functional configuration example of Linear Prediction (CELP).
【図9】図8における駆動音源ベクトル生成部の機能構
成例を示す図。FIG. 9 is a diagram showing a functional configuration example of a driving sound source vector generation unit in FIG. 8;
【図10】音声の符号駆動線形予測符号化(Code-Excit
ed Linear Prediction:CELP)に対応する復号方法
の機能構成例を示す図。FIG. 10: Code-driven linear predictive coding of speech (Code-Excit)
FIG. 3 is a diagram showing an example of a functional configuration of a decoding method corresponding to ed Linear Prediction (CELP).
【図11】聴覚重みづきを考慮して歪みを計算する機能
構成例を示す図。FIG. 11 is a diagram showing an example of a functional configuration for calculating distortion in consideration of auditory weighting.
【図12】従来の高速歪み計算方法の例で、聴覚重み付
き合成フィルタの近似フィルタを合成歪み計算に用いる
機能構成例を示す図。FIG. 12 is a diagram showing an example of a conventional high-speed distortion calculation method, showing a functional configuration example in which an approximation filter of a perceptually weighted synthesis filter is used for the synthesis distortion calculation.
Claims (8)
り得られる駆動音源ベクトルにより、合成フィルタを駆
動して音響信号を再生し、これと入力音響信号との間の
歪が最小になるように上記符号帳を探索する符号化方法
において、 上記合成フィルタを、高速に歪み計算ができるように簡
略化した近似フィルタで表現し、 上記合成フィルタを上記近似フィルタで表現したことに
もとづき生じる近似誤差を、上記入力音響信号に付加
し、 この近似誤差が付加された入力音響信号を上記符号帳の
探索に用いることを特徴とする音響信号符号化方法。An audio signal is reproduced by driving a synthesis filter with a driving excitation vector obtained from a time series vector extracted from a codebook, and the distortion between the audio signal and the input audio signal is minimized. In an encoding method for searching a codebook, the synthesis filter is represented by a simplified approximation filter capable of performing distortion calculation at high speed, and an approximation error generated based on expressing the synthesis filter by the approximation filter is represented by: A sound signal encoding method characterized by using the input sound signal to which the approximation error is added to the input sound signal for searching the codebook.
おいて、 入力音響信号を、合成フィルタの逆フィルタに通し、そ
の逆フィルタ出力を、上記近似フィルタと同一の特性を
持つフィルタに通すことによって上記近似誤差が付加さ
れた入力音響信号を得ることを特徴とする音響信号符号
化方法。2. The audio signal encoding method according to claim 1, wherein the input audio signal is passed through an inverse filter of a synthesis filter, and the output of the inverse filter is passed through a filter having the same characteristics as the approximate filter. An audio signal encoding method to obtain an input audio signal to which the approximation error is added.
号符号化方法において、 上記近似フィルタを、有限タップ長のFIR型フィルタ
で実現することを特徴とする音響信号符号化方法。3. The audio signal encoding method according to claim 1, wherein the approximation filter is realized by a FIR filter having a finite tap length.
おいて、 上記FIRフィルタのタップ長を、IIRフィルタを用
いる場合と等価な結果が得られるタップ数に比べて少な
い値に設定することを特徴とする音響信号符号化方法。4. The acoustic signal encoding method according to claim 3, wherein the tap length of the FIR filter is set to a value smaller than the number of taps that can obtain a result equivalent to the case of using an IIR filter. Characteristic audio signal encoding method.
号符号化方法において、 上記FIRフィルタのタップ長を、過去のサンプル点の
値を1点用いる2タップ以上、過去のサンプル点の値を
9点用いる10タップ以下の値に設定することを特徴と
する音響信号符号化方法。5. The audio signal encoding method according to claim 3, wherein the tap length of the FIR filter is set to at least two taps using one value of a past sample point, and a value of a past sample point. Signal is set to a value of 10 taps or less using 9 points.
の音響信号符号化方法において、 上記符号帳として過去の駆動音源ベクトルよりなる適応
符号帳と、固定符号ベクトルよりなる固定符号帳とを用
い、 上記固定符号帳から出力される固定符号ベクトルを、ピ
ッチに対応する周期で周期化してから駆動音源ベクトル
として用い、 固定符号ベクトルの探索の際には、上記固定符号ベクト
ルの周期化の周期の周期化逆フィルタを上記入力音響信
号に通すと共に上記近似誤差を付加することを特徴とす
る音響信号符号化方法。6. The audio signal encoding method according to claim 1, wherein the codebook includes an adaptive codebook including a past excitation vector and a fixed codebook including a fixed code vector. The fixed code vector output from the fixed code book is periodicized at a cycle corresponding to the pitch, and then used as a drive excitation vector.When searching for a fixed code vector, the fixed code vector A sound signal encoding method characterized by passing a periodical inverse filter through the input sound signal and adding the approximation error.
の音響信号符号化方法において、 上記近似フィルタを有限タップ長のFIR型フィルタで
表現し、その有限長FIRフィルタの係数から得られ
る、有限長のインパルス応答を用いてインパルス応答行
列を作成し、 そのインパルス応答行列の転置行列と当該インパルス応
答行列の積である、相関行列を計算してメモリに展開し
て蓄積し、 上記相関行列の値を参照しながら上記歪を計算すること
を特徴とする音響信号符号化方法。7. The audio signal encoding method according to claim 1, wherein the approximation filter is represented by an FIR filter having a finite tap length, and is obtained from a coefficient of the finite length FIR filter. , An impulse response matrix is created using a finite-length impulse response, and a correlation matrix, which is a product of the transposed matrix of the impulse response matrix and the impulse response matrix, is calculated and expanded and stored in a memory. And calculating the distortion with reference to the value of the audio signal.
の音響信号符号化方法において、 上記近似フィルタは聴覚重み付きがなされていることを
特徴とする音響信号符号化方法。8. The audio signal encoding method according to claim 1, wherein said approximation filter is weighted by auditory weight.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09040404A JP3095133B2 (en) | 1997-02-25 | 1997-02-25 | Acoustic signal coding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09040404A JP3095133B2 (en) | 1997-02-25 | 1997-02-25 | Acoustic signal coding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10242867A true JPH10242867A (en) | 1998-09-11 |
JP3095133B2 JP3095133B2 (en) | 2000-10-03 |
Family
ID=12579736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09040404A Expired - Lifetime JP3095133B2 (en) | 1997-02-25 | 1997-02-25 | Acoustic signal coding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3095133B2 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002013183A1 (en) * | 2000-08-09 | 2002-02-14 | Sony Corporation | Voice data processing device and processing method |
JP2002062899A (en) * | 2000-08-23 | 2002-02-28 | Sony Corp | Device and method for data processing, device and method for learning and recording medium |
JP2002149175A (en) * | 2000-11-14 | 2002-05-24 | Sony Corp | Device and method for processing sound, device and method for learning and recording medium |
JP2002222000A (en) * | 2001-01-25 | 2002-08-09 | Sony Corp | Device and method for data processing, program and recording medium |
JP2002221999A (en) * | 2001-01-25 | 2002-08-09 | Sony Corp | Data processor, data processing method, program and recording medium |
WO2007043643A1 (en) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | Audio encoding device, audio decoding device, audio encoding method, and audio decoding method |
US7283961B2 (en) | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
WO2008072736A1 (en) * | 2006-12-15 | 2008-06-19 | Panasonic Corporation | Adaptive sound source vector quantization unit and adaptive sound source vector quantization method |
WO2008072735A1 (en) * | 2006-12-15 | 2008-06-19 | Panasonic Corporation | Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof |
-
1997
- 1997-02-25 JP JP09040404A patent/JP3095133B2/en not_active Expired - Lifetime
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100819623B1 (en) * | 2000-08-09 | 2008-04-04 | 소니 가부시끼 가이샤 | Voice data processing device and processing method |
US7912711B2 (en) | 2000-08-09 | 2011-03-22 | Sony Corporation | Method and apparatus for speech data |
WO2002013183A1 (en) * | 2000-08-09 | 2002-02-14 | Sony Corporation | Voice data processing device and processing method |
US7283961B2 (en) | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
JP2002062899A (en) * | 2000-08-23 | 2002-02-28 | Sony Corp | Device and method for data processing, device and method for learning and recording medium |
JP2002149175A (en) * | 2000-11-14 | 2002-05-24 | Sony Corp | Device and method for processing sound, device and method for learning and recording medium |
JP4517262B2 (en) * | 2000-11-14 | 2010-08-04 | ソニー株式会社 | Audio processing device, audio processing method, learning device, learning method, and recording medium |
JP2002221999A (en) * | 2001-01-25 | 2002-08-09 | Sony Corp | Data processor, data processing method, program and recording medium |
JP2002222000A (en) * | 2001-01-25 | 2002-08-09 | Sony Corp | Device and method for data processing, program and recording medium |
JPWO2007043643A1 (en) * | 2005-10-14 | 2009-04-16 | パナソニック株式会社 | Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method |
WO2007043643A1 (en) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | Audio encoding device, audio decoding device, audio encoding method, and audio decoding method |
US7991611B2 (en) | 2005-10-14 | 2011-08-02 | Panasonic Corporation | Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals |
WO2008072736A1 (en) * | 2006-12-15 | 2008-06-19 | Panasonic Corporation | Adaptive sound source vector quantization unit and adaptive sound source vector quantization method |
WO2008072735A1 (en) * | 2006-12-15 | 2008-06-19 | Panasonic Corporation | Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof |
US8200483B2 (en) | 2006-12-15 | 2012-06-12 | Panasonic Corporation | Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof |
US8249860B2 (en) | 2006-12-15 | 2012-08-21 | Panasonic Corporation | Adaptive sound source vector quantization unit and adaptive sound source vector quantization method |
JP5230444B2 (en) * | 2006-12-15 | 2013-07-10 | パナソニック株式会社 | Adaptive excitation vector quantization apparatus and adaptive excitation vector quantization method |
JP5241509B2 (en) * | 2006-12-15 | 2013-07-17 | パナソニック株式会社 | Adaptive excitation vector quantization apparatus, adaptive excitation vector inverse quantization apparatus, and methods thereof |
Also Published As
Publication number | Publication date |
---|---|
JP3095133B2 (en) | 2000-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0990995A (en) | Speech coding device | |
JPH11327597A (en) | Voice coding device and voice decoding device | |
JP3180786B2 (en) | Audio encoding method and audio encoding device | |
JP4008607B2 (en) | Speech encoding / decoding method | |
JP3582589B2 (en) | Speech coding apparatus and speech decoding apparatus | |
JP3335841B2 (en) | Signal encoding device | |
JP3095133B2 (en) | Acoustic signal coding method | |
JPH05216500A (en) | Speech encoding device | |
JP3616432B2 (en) | Speech encoding device | |
JP3308764B2 (en) | Audio coding device | |
JPH1063300A (en) | Voice decoding and voice coding device | |
JPH06282298A (en) | Voice coding method | |
JP3003531B2 (en) | Audio coding device | |
JP3299099B2 (en) | Audio coding device | |
JP3490325B2 (en) | Audio signal encoding method and decoding method, and encoder and decoder thereof | |
JP3153075B2 (en) | Audio coding device | |
JP2002221998A (en) | Method, device and program for encoding and decoding acoustic parameter and voice | |
JP3092436B2 (en) | Audio coding device | |
JP3192999B2 (en) | Voice coding method and voice coding method | |
JP3192051B2 (en) | Audio coding device | |
JP3024467B2 (en) | Audio coding device | |
JP3002299B2 (en) | Audio coding device | |
JPH08320700A (en) | Sound coding device | |
JP2000029499A (en) | Voice coder and voice encoding and decoding apparatus | |
JP2808841B2 (en) | Audio coding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080804 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080804 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100804 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100804 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110804 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120804 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130804 Year of fee payment: 13 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |