JPH0934498A - Acoustic signal encoding method - Google Patents

Acoustic signal encoding method

Info

Publication number
JPH0934498A
JPH0934498A JP7185625A JP18562595A JPH0934498A JP H0934498 A JPH0934498 A JP H0934498A JP 7185625 A JP7185625 A JP 7185625A JP 18562595 A JP18562595 A JP 18562595A JP H0934498 A JPH0934498 A JP H0934498A
Authority
JP
Japan
Prior art keywords
excitation signal
signal
noise
noise excitation
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7185625A
Other languages
Japanese (ja)
Inventor
Jiyoutarou Ikedo
丈太朗 池戸
Akitoshi Kataoka
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7185625A priority Critical patent/JPH0934498A/en
Publication of JPH0934498A publication Critical patent/JPH0934498A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To decrease the selective calculating amount of a noise exciting signal. SOLUTION: Matrices H and H<t> H=R using the impulse response of a synthesizing filter as elements are determined by a calculation part 31 after selecting a pitch exciting signal (p), and ψ is determined by another calculation part 32 from H, R, signal (p) and input voice (s), and preliminary selection part 33-37 calculate aj ψ(lj ) for vector elements ψ(i) of ψ about eight pulse positions lj and their polarities aj in groups 0-4, and in the sequence from greater value of aj ψ(lj ), for example, three pulse positions are preliminarily selected, and a candidate preparing part 38 prepares a noise exciting signal (c) of five pulses as one selection each from the three positions among group 0-4, and for each (c), ψc is calculated and also distortion for (s) is calculated so that the optimum noise exciting signal is selected.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は音声や音楽などの
音響信号を、ピッチ成分を表現するピッチ励振信号と雑
音成分を表現する雑音励振信号の合成フィルタを駆動し
て音響信号を再生することを利用して音響信号を符号化
する方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to reproducing an acoustic signal such as voice or music by driving a synthesis filter of a pitch excitation signal expressing a pitch component and a noise excitation signal expressing a noise component. The present invention relates to a method of encoding an acoustic signal by utilizing the method.

【0002】[0002]

【従来の技術】2個の励振信号を用いて合成フィルタを
駆動する音響信号符号化方法としてはVSELP、CS
−CELPその他の方法が知られている。これらは、I.
A. Gerson and M. A. Jasiuk:“Vector Sum Excited L
inear Prediction (VSELP) Speech Coding at 8kb/s",
Proc. IEEE ICASSP '90, pp.461-464 (1990)(文献1)
あるいは A. Kataoka, T. Moriya and S. Hayashi:“An
8-kbit/s Speech CoderBasedon Conjugate Structure
CELP", Proc. IEEE ICASSP '93, pp.592-595 (1993)
(文献2)その他の文献に開示されている。
2. Description of the Related Art VSELP, CS are available as audio signal encoding methods for driving a synthesis filter using two excitation signals.
-CELP and other methods are known. These are I.
A. Gerson and MA Jasiuk: “Vector Sum Excited L
inear Prediction (VSELP) Speech Coding at 8kb / s ",
Proc. IEEE ICASSP '90, pp.461-464 (1990) (Reference 1)
Or A. Kataoka, T. Moriya and S. Hayashi: “An
8-kbit / s Speech CoderBased on Conjugate Structure
CELP ", Proc. IEEE ICASSP '93, pp.592-595 (1993)
(Reference 2) It is disclosed in other references.

【0003】ここで、図3を参照してこの種の音声符号
化方法の従来例を説明する。ただし同図は説明の簡単の
ため主な信号の流れのみを記載したものである。まず、
入力端子1から入力される入力音声波形のサンプリング
値系列がフィルタ係数決定部2に供給され、ここにおい
て線形予測分析などによりフィルタ係数が計算される。
フィルタ係数決定部2において計算されたフィルタ係数
は、次いでフィルタ係数量子化部3に供給され、フィル
タ係数はここにおいて量子化され、量子化されたフィル
タ係数は合成フィルタ4に供給され、ここに合成フィル
タ4のフィルタ係数が設定される。
A conventional example of this type of speech coding method will be described with reference to FIG. However, in the figure, only the main signal flow is shown for the sake of simplicity of description. First,
The sampling value series of the input speech waveform input from the input terminal 1 is supplied to the filter coefficient determination unit 2, where the filter coefficient is calculated by linear prediction analysis or the like.
The filter coefficient calculated in the filter coefficient determination unit 2 is then supplied to the filter coefficient quantization unit 3, the filter coefficient is quantized here, and the quantized filter coefficient is supplied to the synthesis filter 4 and synthesized there. The filter coefficient of the filter 4 is set.

【0004】この合成フィルタ4を駆動する励振信号は
2個の励振信号より成る。励振信号のうちの一方はピッ
チ符号帳11の出力であり、他方は雑音符号帳21の出
力である。このピッチ符号帳11は合成フィルタ4に対
する過去の励振信号について複数のピッチ周期で取出さ
れた成分であり、選択されたピッチ周期成分候補はピッ
チ利得乗算部12においてピッチ利得が乗算されて出力
される。雑音符号帳21は複数の雑音波形成分より成
り、選択された雑音波形候補は雑音利得乗算部22にお
いて雑音利得が乗算されて出力される。合成フィルタ4
はピッチ利得乗算部12の出力と雑音利得乗算部22の
出力とを加算部8で加算したものにより励振駆動され
る。
The excitation signal for driving the synthesis filter 4 is composed of two excitation signals. One of the excitation signals is the output of the pitch codebook 11 and the other is the output of the noise codebook 21. The pitch codebook 11 is a component extracted in a plurality of pitch periods with respect to the past excitation signal for the synthesis filter 4, and the selected pitch period component candidate is multiplied by the pitch gain in the pitch gain multiplication unit 12 and output. . The noise codebook 21 includes a plurality of noise waveform components, and the selected noise waveform candidate is multiplied by the noise gain in the noise gain multiplication unit 22 and output. Synthesis filter 4
Is driven by the sum of the output of the pitch gain multiplication unit 12 and the output of the noise gain multiplication unit 22 in the addition unit 8.

【0005】歪計算部5は、入力端子1を介して入力さ
れる入力音声信号と合成フィルタ4から出力される合成
音声信号との間の差が減算部9でとられ、その差である
歪が最も小さくなるように両符号帳11,21中の各励
振成分候補を選択し、同時に各励振成分候補に対して最
適な利得を設定する。符号出力部6は、フィルタ係数量
子化部3から供給される量子化されたフィルタ係数、歪
計算部5において選択された各符号帳11,21の選択
された各候補利得部12,22の利得をそれぞれ符号化
して出力する。これらの符号は出力端子7を介して伝送
又は蓄積される。通常はピッチ励振信号を選択した後、
雑音波形励振信号を選択する。
In the distortion calculating section 5, the difference between the input audio signal input through the input terminal 1 and the synthetic audio signal output from the synthesizing filter 4 is taken in the subtracting section 9, and the difference which is the distortion. Each excitation component candidate in both codebooks 11 and 21 is selected so that is minimized, and at the same time, an optimum gain is set for each excitation component candidate. The code output unit 6 includes the quantized filter coefficients supplied from the filter coefficient quantization unit 3 and the gains of the selected candidate gain units 12 and 22 of the codebooks 11 and 21 selected by the distortion calculation unit 5. Are encoded and output. These codes are transmitted or stored via the output terminal 7. Normally, after selecting the pitch excitation signal,
Select the noise waveform excitation signal.

【0006】ところで、前記雑音符号帳21よりの雑音
波形成分を、複数のパルスにより表現した音声符号化方
法として、ACELPが知られている。これは文献 R.
Salami, C. Laflamme and J-P. Adoul: "ACELP Speech
Coderat 8kbit/s with 10msFrame: A Candidate for CC
ITT Standardization", Proc. IEEE Workshop on Speec
h Coding, pp. 23-24(1993)(文献3)その他の文献に
開示されている。この方法は5msの時間長の雑音励振
信号を4ないし5個の振幅一定のパルス列により表現
し、雑音励振信号はこれらのパルスの位置およびその極
性により特定するものであり、雑音励振波形の候補の格
納に必要とされるメモリを不要としている。
ACELP is known as a speech coding method in which the noise waveform component from the noise codebook 21 is expressed by a plurality of pulses. This is the reference R.
Salami, C. Laflamme and JP. Adoul: "ACELP Speech
Coderat 8kbit / s with 10msFrame: A Candidate for CC
ITT Standardization ", Proc. IEEE Workshop on Speec
h Coding, pp. 23-24 (1993) (Reference 3) and other references. In this method, a noise excitation signal having a time length of 5 ms is represented by a pulse train of 4 or 5 constant amplitudes, and the noise excitation signal is specified by the position of these pulses and their polarities. It eliminates the memory required for storage.

【0007】図4を用いて従来の雑音励振信号としての
パルスを選択する方法を説明する。図3に示した場合と
同様にして選択されたピッチ励振信号が端子13から加
算部8に入力され、雑音励振作成部14から雑音励振信
号候補として複数のパルスの組み合わせが加算部8へ供
給され、その出力が、図3の量子化部3よりのフィルタ
係数が端子15を通じて設定されている合成フィルタ4
に通され、その出力と入力音声信号との差が歪計算部5
へ供給され誤差信号のパワーが最小になるように雑音励
振作成部14が制御され、誤差パワーが最小となるパル
ス位置、その各極性を符号化して出力する。
A conventional method for selecting a pulse as a noise excitation signal will be described with reference to FIG. The pitch excitation signal selected in the same manner as in the case shown in FIG. 3 is input from the terminal 13 to the adding section 8, and the noise excitation creating section 14 supplies the combination of a plurality of pulses as a noise excitation signal candidate to the adding section 8. , Its output is the synthesis filter 4 to which the filter coefficient from the quantizer 3 of FIG. 3 is set through the terminal 15.
And the difference between the output and the input audio signal is passed to the distortion calculator 5.
The noise excitation generator 14 is controlled so as to minimize the power of the error signal supplied to the pulse position and the pulse position where the error power is minimized and each polarity thereof are encoded and output.

【0008】ところが、この方法は複数のパルスの組み
合わせで雑音励振波形を表現するため非常に多くの雑音
励振信号候補が存在し、最適な雑音励振信号候補を決定
するためには多数回の演算処理を必要とする。即ち図4
に於いて雑音励振信号作成、合成フィルタ、誤差パワー
算出の処理を全ての雑音励振信号候補について行う必要
があり、このため多くの演算処理が必要となる。
However, since this method represents a noise excitation waveform with a combination of a plurality of pulses, there are a large number of noise excitation signal candidates, and in order to determine the optimum noise excitation signal candidate, a large number of arithmetic processings are performed. Need. That is, FIG.
In this case, it is necessary to perform the processes of noise excitation signal generation, synthesis filter, and error power calculation for all noise excitation signal candidates, and therefore many arithmetic processes are required.

【0009】さらに、雑音励振信号を特定する際に、各
雑音励振信号候補を、事前に決定されたピッチ励振信号
に対して直交化して選択する方法が知られている。この
方法は雑音励振信号の特定に際して事前に決定したピッ
チ励振信号の影響をゼロとすることができ、より高精度
に雑音励振信号の特定を可能にする。これは I. A. Ger
son and M. A. Jasiuk; “Vector Sum Excited Linear
Prediction (VSELP) Speech Coding at 8kb/s", Proc.
IEEE ICASSP '90, pp.461-464(1990)(文献4)その他の
文献に開示されている。
Further, a method is known in which, when specifying a noise excitation signal, each noise excitation signal candidate is orthogonalized to a pitch excitation signal determined in advance and selected. This method can eliminate the influence of the pitch excitation signal determined in advance when the noise excitation signal is specified, and enables the noise excitation signal to be specified with higher accuracy. This is IA Ger
son and MA Jasiuk; “Vector Sum Excited Linear
Prediction (VSELP) Speech Coding at 8kb / s ", Proc.
IEEE ICASSP '90, pp.461-464 (1990) (reference 4) and other references.

【0010】図5を用いてこの従来の雑音励振信号の直
交化選択を、図4と同様に選択したピッチ励振信号を用
いて雑音励振信号を選択する場合について説明する。端
子15からフィルタ係数が合成フィルタ4a,4bに設
定され、端子13から選択されたピッチ励振信号が合成
フィルタ4aに入力され、雑音符号帳17から選択され
た複数のパルスよりなる雑音励振信号が合成フィルタ4
bに入力される。合成フィルタ4a,4bより各合成信
号は直交化部18で直交化処理されて歪計算部19に入
力され、端子1からの音声信号に対する誤差パワーが最
小になるように雑音符号帳17の選択が行われる。
The orthogonal selection of the conventional noise excitation signal will be described with reference to FIG. 5, and the case where the noise excitation signal is selected using the pitch excitation signal selected similarly to FIG. The filter coefficient is set to the synthesis filters 4a and 4b from the terminal 15, the pitch excitation signal selected from the terminal 13 is input to the synthesis filter 4a, and the noise excitation signal composed of a plurality of pulses selected from the noise codebook 17 is synthesized. Filter 4
b. The synthesized signals from the synthesis filters 4a and 4b are orthogonalized by the orthogonalization unit 18 and input to the distortion calculation unit 19, and the noise codebook 17 is selected so that the error power with respect to the voice signal from the terminal 1 is minimized. Done.

【0011】直交化部18で合成雑音成分は、合成ピッ
チ成分と無相関とされているから、歪計算部19では、
この直交化された合成雑音成分と入力音声中の雑音成分
との誤差パワーが最小となる雑音励振信号を選択するこ
とになる。選択されたピッチ励振信号をp、雑音励振信
号候補をc、合成フィルタ4a,4bのインパルス応答
を要素とする行列をHとすると、直交化部18の出力中
の合成雑音成分C0 は前記文献4に示すように、次式で
表わされる。
Since the synthetic noise component is uncorrelated with the synthetic pitch component in the orthogonalization unit 18, the distortion calculation unit 19
The noise excitation signal that minimizes the error power between the orthogonalized synthesized noise component and the noise component in the input speech is selected. When the selected pitch excitation signal is p, the noise excitation signal candidate is c, and the matrix having the impulse responses of the synthesis filters 4a and 4b as elements is H, the synthesized noise component C 0 in the output of the orthogonalization unit 18 is the above-mentioned document. As shown in FIG.

【0012】C0 =Hc−〔(pt t Hc)/(pt
t Hp)〕Hp Ht はHの転置を示す。この合成雑音成分C0 と入力音
声信号の時系列ベクトルsの歪みDは次式で求められ
る。 D={s−γc 0 t {s−γc 0 } この歪Dを最小とする雑音励振信号候補cは次式を最大
にする候補cと等価である。
[0012] C 0 = Hc - [(p t H t Hc) / (p t
H t Hp)] Hp H t denotes the transpose of H. The synthetic noise component C 0 and the distortion D of the time series vector s of the input voice signal are obtained by the following equation. D = {s-γ c C 0 } t {s-γ c C 0 } The noise excitation signal candidate c that minimizes the distortion D is equivalent to the candidate c that maximizes the following expression.

【0013】Dsu=(Ψc)2 /{(cRc)(pR
p)−(pRc)2 } R=Ht H Ψ=(pt Rp)st H−(st Hp)pt R 最適雑音励振信号の選択はDsuが最大となるcを求める
ことになる。これらのことは前記文献4に示されてい
る。すべての座音励振信号cについてDsuを計算するこ
とにより最適な雑音励振信号を選択する。
D su = (Ψc) 2 / {(cRc) (pR
p) - (pRc) 2} R = H t H Ψ = ( selection of p t Rp) s t H- ( s t Hp) p t R optimum noise excitation signal to obtain the c that D su is maximum Become. These are shown in the above-mentioned reference 4. The optimal noise excitation signal is selected by calculating D su for all seat excitation signals c.

【0014】[0014]

【発明が解決しようとする課題】例えば雑音励振信号の
継続時間長(フレーム長)を5msとし、各雑音励振信
号を5個のパルスで表現し、図6に示すように、グルー
プ0〜4はそれぞれフレーム中における決められた8つ
のパルス位置の何れかしかとることができないとされ、
各グループ0〜4からそれぞれその8つのパルス位置の
何れか1つを取出して、5つのパルスよりなる雑音励振
信号とする。その場合、各パルスは+1又は−1の何れ
かの極性をとる。このようにして雑音励振信号が作成さ
れるため、その数は著しく大であり、その各雑音励振信
号についてDsuの式を演算する必要があり、その演算量
が著しく多くなり、時間も長くなる。
For example, the duration (frame length) of the noise excitation signal is set to 5 ms, each noise excitation signal is represented by 5 pulses, and as shown in FIG. It is said that each of them can take only one of eight fixed pulse positions in the frame,
Any one of the eight pulse positions is taken out from each of the groups 0 to 4 to obtain a noise excitation signal composed of five pulses. In that case, each pulse has a polarity of either +1 or -1. Since the noise excitation signal is created in this way, the number thereof is remarkably large, and it is necessary to calculate the formula D su for each noise excitation signal, and the amount of calculation is remarkably increased and the time also becomes long. .

【0015】この発明は、ピッチ成分を表現するピッチ
励振信号および雑音成分を表現する雑音励振信号の2個
の励振信号を使用して合成フィルタを駆動する音響信号
符号化方法において、雑音励振信号として複数のパルス
で構成される雑音励振信号を用い、少ない演算量で実行
可能な雑音励振信号を選択することができる音響信号符
号化方法を提供することを目的とする。
According to the present invention, in a sound signal encoding method for driving a synthesis filter using two excitation signals, a pitch excitation signal expressing a pitch component and a noise excitation signal expressing a noise component, the noise excitation signal is used as a noise excitation signal. An object of the present invention is to provide an acoustic signal encoding method that can select a noise excitation signal that can be executed with a small amount of calculation, using a noise excitation signal composed of a plurality of pulses.

【0016】[0016]

【課題を解決するための手段】請求項1の発明によれ
ば、雑音励振信号、入力音響信号、ピッチ励振信号及び
合成フィルタ係数から求められる値を利用して、雑音励
振信号の候補を予備的に複数選択し、これら選択された
各雑音励振信号の候補で合成フィルタを駆動して得られ
る各合成音響信号と入力音響信号との間の歪を求め、そ
の歪を最小とする雑音励振信号を一つ選択する。
According to the invention of claim 1, a candidate of the noise excitation signal is preliminarily used by utilizing the values obtained from the noise excitation signal, the input acoustic signal, the pitch excitation signal and the synthesis filter coefficient. , And select the distortion between each synthetic acoustic signal and the input acoustic signal obtained by driving the synthesis filter with these selected candidates of each noise excitation signal, and select the noise excitation signal that minimizes the distortion. Select one.

【0017】請求項2の発明によれば、雑音励振信号、
入力音響信号、ピッチ励振信号及び合成フィルタ係数か
ら求められる値を利用して雑音励振信号を構成するパル
スの位置及び振幅の候補を予備的に複数選択し、これら
選択されたパルス位置により構成される各雑音励振信号
で合成フィルタを駆動して得られる各合成音響信号と入
力音響信号との間の歪を求め、その歪を最小とする雑音
励振信号を一つ選択する。
According to the invention of claim 2, a noise excitation signal,
Using the values obtained from the input acoustic signal, the pitch excitation signal, and the synthesis filter coefficient, a plurality of candidates for the position and amplitude of the pulse forming the noise excitation signal are preliminarily selected, and the pulse position is selected. The distortion between each synthetic acoustic signal obtained by driving the synthetic filter with each noise excitation signal and the input acoustic signal is obtained, and one noise excitation signal that minimizes the distortion is selected.

【0018】更に具体的に述べると、ピッチ成分を表現
するピッチ励振信号および雑音成分を表現する雑音励振
信号の2個の励振信号を使用して合成フィルタを駆動し
て音響信号を再生し、その入力音響信号との歪が最小と
なるピッチ励振信号および雑音励振信号を選択すること
により符号化し、その際に上記雑音励振信号を複数のパ
ルスで表現し、上記合成フィルタの特性を表わす行列
と、ピッチ励振信号と、入力音響信号と、雑音励振信号
とを用いた演算の結果が最大となる雑音励振信号を選択
する方法において、請求項1の発明では上記演算の分子
と対応する項を演算し、その演算結果の大きいものから
順に予め決めた数の雑音励振信号を予備選択し、その予
備選択した雑音励振信号について上記演算の結果の最大
となるものを選択する。
More specifically, two excitation signals, a pitch excitation signal expressing a pitch component and a noise excitation signal expressing a noise component, are used to drive a synthesis filter to reproduce an acoustic signal, Encoding by selecting a pitch excitation signal and a noise excitation signal with minimum distortion with the input acoustic signal, in which case the noise excitation signal is represented by a plurality of pulses, and a matrix representing the characteristics of the synthesis filter, In a method of selecting a noise excitation signal that maximizes the result of calculation using a pitch excitation signal, an input acoustic signal, and a noise excitation signal, in the invention of claim 1, the term corresponding to the numerator of the calculation is calculated. , Pre-select a predetermined number of noise excitation signals in descending order of the calculation result, and select the pre-selected noise excitation signal that gives the maximum result of the above calculation. .

【0019】請求項2の発明では請求項1の発明におけ
る雑音励振信号の作成を、それぞれパルスのとり得るフ
レーム上の位置が複数個所予め決められた複数のグルー
プから、その各1つのパルス位置を選択し、かつ極性を
与えて作成し、予備選択を、各グループにおけるパルス
位置について、前記最大となる演算の分子と対応する演
算を行い、その各グループにおける演算結果のうち、大
きな順に所定数を選択して行い、その選択されたパルス
位置を、各グループから選択して作成した雑音励振信号
について上記演算の結果が最大となるものを求める。
According to the second aspect of the invention, the noise excitation signal in the first aspect of the invention is created by selecting one pulse position from each of a plurality of groups each having a plurality of predetermined positions on the frame where the pulse can be taken. Select and create by giving polarity, pre-selection is performed for the pulse position in each group, the calculation corresponding to the numerator of the maximum calculation is performed, and a predetermined number is selected from the calculation result in each group in descending order. The selected pulse position is selected and the noise excitation signal generated by selecting it from each group is determined so as to maximize the result of the above calculation.

【0020】[0020]

【発明の実施の形態】簡単のため、入力音声のサンプリ
ング周波数を8000Hz、雑音励振信号の継続時間長
(フレーム長)を5msとし、雑音励振信号を5個のパ
ルスで表現し、かつその第0〜第4パルスは図6に示し
た第0〜第4グループごとにそれぞれ規定されるフレー
ム上の位置にのみ存在することを可能とする。つまり雑
音励振信号はこれら第0〜第4グループから一つづつパ
ルス位置を選択し、さらに各パルスに極性を設定するこ
とにより構成する。ピッチ励振信号の選択は例えば図3
について述べたと同様に行う。この発明では雑音励振信
号の選択に特徴があり、この選択は従来技術の項で説明
したDsuの演算が最大となるものを求めるが、請求項1
の発明では、まず図1Aに示すように、Dsuの式の分子
のΨの算出を、合成フィルタのインパルス応答を要素と
する行列Hと、入力音声信号の時系列ベクトルsと、ピ
ッチ励振信号(ベクトル)pとにより行う(S1 )。次
にこのΨと、図6から求められる全ての雑音励振信号
(ベクトル)cの積を求める(S2 )。Ψのベクトルの
第i要素(i=0,1,2,…39)をψ(i)とし、
雑音励振信号cの5つのパルスの極性をa0 〜a4 、パ
ルス位置をl0 〜l4 とすると、Ψcは次式の演算とな
る。
For simplicity, the sampling frequency of the input voice is 8000 Hz, the duration time (frame length) of the noise excitation signal is 5 ms, the noise excitation signal is expressed by 5 pulses, and The ~ fourth pulse can exist only at the position on the frame defined for each of the 0th to 4th groups shown in Fig. 6. That is, the noise excitation signal is formed by selecting pulse positions one by one from these 0th to 4th groups and further setting the polarity of each pulse. The pitch excitation signal is selected, for example, as shown in FIG.
As described above. The present invention is characterized by the selection of the noise excitation signal, and this selection seeks the one that maximizes the calculation of D su described in the section of the prior art.
In the invention of FIG. 1, first, as shown in FIG. 1A, the calculation of Ψ of the numerator of D su is performed by a matrix H having the impulse response of the synthesis filter as an element, the time series vector s of the input speech signal, and the pitch excitation signal (Vector) p and (S 1 ). Next, the product of this Ψ and all noise excitation signals (vectors) c obtained from FIG. 6 is obtained (S 2 ). Let i (i) be the i-th element (i = 0, 1, 2, ... 39) of the vector of Ψ,
When the polarities of the five pulses of the noise excitation signal c are a 0 to a 4 and the pulse positions are l 0 to l 4 , Ψc is calculated by the following equation.

【0021】Ψc=a0 ψ(l0 )+a1 ψ(l1 )+
…+a4 ψ(l4 ) この演算を各雑音励振信号について実行する。これらΨ
cの値の大きなものから順に、例えば30個程度を予備
選択する(S3 )。この予備選択した雑音励振信号につ
いて前記Dsuの演算をそれぞれ行い(S4 )、最大のD
suとなった雑音励振信号を選択する(S5 )。このよう
に予備選択を行うがDsuの値が大きなものはその分子の
Ψcも大きな値と考えられ、この予備選択によってもそ
の数を適当に選ぶことによって最適の雑音励振信号を落
すおそれはない。
Ψc = a 0 ψ (l 0 ) + a 1 ψ (l 1 ) +
... + a 4 ψ (l 4 ) This calculation is executed for each noise excitation signal. These Ψ
For example, about 30 pieces are preselected in descending order of the value of c (S 3 ). The D su is calculated for each of the preselected noise excitation signals (S 4 ), and the maximum D is calculated.
The noise excitation signal that has become su is selected (S 5 ). Preliminary selection is performed in this way, but if the value of D su is large, ψc of the numerator is also considered to be large, and there is no possibility of dropping the optimum noise excitation signal by appropriately selecting the number even in this preselection. .

【0022】次に請求項2の発明の実施例を説明する。
この発明においても雑音励振信号の選択に特徴があり、
この実施例においても、図1Bに示すようにまずΨの演
算を行う(S1 )。この演算は図1Aのそれと同様に行
う。次に図6中の各グループ0〜4ごとに、そのグルー
プに属する、この例では各8つのパルス位置lj (0,
1,…,7)についてそのaj ,lj を用いてΨの要素
j ψ(lj )を演算する(S2 )。これら各グループ
ごとにaj ψ(lj )の演算結果から大きな順に1乃至
複数個のaj ,lj を取出す(S3 )。これら取出され
たaj ,lj を各グループごとから1つづつ取出して、
作り得る雑音励振信号cを作成する(S 4 )。このよう
にして図6に示したものから作り得る雑音励振信号より
予備選択がなされたことになる。この予備選択された雑
音励振信号を用いてDsuの演算を行い(C5 )、その演
算結果が最大となった雑音励振信号を選択する
(S6 )。
Next, an embodiment of the invention of claim 2 will be described.
This invention is also characterized by the selection of the noise excitation signal,
Also in this embodiment, as shown in FIG.
Calculate (S1). This operation is the same as that of FIG. 1A.
U. Next, for each group 0 to 4 in FIG.
8 pulse positions l in this examplej(0,
About 1, ..., 7)j, LjThe element of Ψ using
ajψ (lj) Is calculated (STwo). Each of these groups
Every ajψ (lj1) from the calculation result of 1)
Multiple aj, LjTake out (SThree). These are taken out
Aj, LjTake out one from each group,
A possible noise excitation signal c is created (S Four). like this
From the noise excitation signal that can be made from the one shown in FIG.
A preliminary selection has been made. This preselected miscellaneous
D using sound excitation signalsuIs calculated (CFive), The performance
Select the noise excitation signal with the maximum calculation result
(S6).

【0023】この図1Bに示した実施例を機能的に示す
と図2のようになる。つまり端子15からの合成フィル
タ係数によりR,H算出部31でHとRが算出され、こ
れらと端子1からの入力音声s及び端子13からのピッ
チ励振信号pとからΨ算出部32でΨが算出される。予
備選択部33〜37でそれぞれグループ0〜4における
各aj ψ(lj )の値が算出され、各グループにおいて
j ψ(lj )の値の大きい順にaj ,lj をそれぞれ
例えば3個づつ選択する。
Functionally, the embodiment shown in FIG. 1B is as shown in FIG. That is, H and R are calculated by the R, H calculation unit 31 by the synthesis filter coefficient from the terminal 15, and from these, the input sound s from the terminal 1 and the pitch excitation signal p from the terminal 13, Ψ is calculated by the Ψ calculation unit 32. It is calculated. The values of a j ψ (l j ) in the groups 0 to 4 are calculated by the preliminary selection units 33 to 37, and a j and l j are respectively calculated in descending order of the value of a j ψ (l j ) in each group, for example. Select three at a time.

【0024】雑音励振信号候補作成部38で予備選択部
33〜37でそれぞれ選択されたa j ,lj から1つず
つ取出して、その全ての組み合せを作り、これらを雑音
励振信号候補とし、これらのそれぞれに対し、Ψ算出部
32で得たΨをΨc算出部39で乗算し、これら各Ψc
の乗算結果と、Rとpと雑音励振信号候補作成部38で
作成された対応するcとにより歪算出部41でそれぞれ
suの演算がなされ、その演算結果が最大となった雑音
励振信号候補を最適励振信号候補選択部42で選択して
出力する。
In the noise excitation signal candidate creation unit 38, a preliminary selection unit
A selected in each of 33 to 37 j, LjOne by one
Take out all of them and make a noise
As excitation signal candidates, Ψ calculator
Ψ obtained in 32 is multiplied by the Ψc calculation unit 39, and each Ψc
The multiplication result of R, p and the noise excitation signal candidate creation unit 38
The distortion is calculated by the distortion calculating unit 41 according to the created corresponding c.
DsuIs calculated, and the noise that maximizes the calculation result is
Select the excitation signal candidate in the optimum excitation signal candidate selection unit 42
Output.

【0025】この請求項2の発明において請求項1の発
明の場合と同様に、Ψcが大きいことはその構成要素a
0 ψ(l0 ),a1 ψ(l1 ),…,a4 ψ(l4 )の
それぞれも大きいはずであるから、各グループからaj
ψ(lj )が大きな値となるものを予備選択しても、正
しく最適な雑音励振信号を選択することができる。
In the invention of claim 2, as in the case of the invention of claim 1, the fact that Ψc is large means that the constituent element a
Since 0 ψ (l 0 ), a 1 ψ (l 1 ), ..., A 4 ψ (l 4 ) should also be large, a j from each group
Even if the one with a large value of ψ (l j ) is preselected, the optimum noise excitation signal can be correctly selected.

【0026】[0026]

【発明の効果】以上述べたように請求項1の発明によれ
ばΨcを演算し、それが大きな値となるcを予備選択
し、その予備選択したcについてのみDsuを演算するた
め、全てのcについてDsuを演算するより演算量が少な
くなる。請求項2の発明によれば、aj ψ(lj )を演
算し、各グループ中のaj ,l j の数を減少させて、こ
れより作成した雑音励振信号cについてDsuを演算する
ため、すべてのcについてDsuを演算するよりも演算量
が少なくなる。例えば各グループから3個のパルス位置
を予備選択する場合はこれらより作られる雑音励振信号
の数は35 =243個であり、この予備選択をしない場
合の数85 個よりも著しく少なくなり、処理量が多い歪
算出(Dsuの演算)回数がそれだけ減少し、その効果は
著しい。
As described above, according to the invention of claim 1.
For example, calculate Ψc and preselect c that has a large value.
And D only for the preselected csuTo calculate
D for all csuThe amount of calculation is smaller than
It becomes. According to the invention of claim 2, ajψ (ljPlay)
A in each groupj, L jReduce the number of
The noise excitation signal c created from thissuCompute
Because D for all csuComputation amount rather than computing
Is less. For example, 3 pulse positions from each group
When preselecting
Is 3Five= 243, if you do not make this preliminary selection
Number 8FiveDistortion that is significantly less than the number of pieces and has a large amount of processing
Calculate (DsuThe number of operations is reduced accordingly, and the effect is
Remarkable.

【0027】図7に、各グループよりのパルス位置選択
数を変化させた時の、雑音励振信号選択に必要な演算量
と、再生音声の品質とを示す。選択数が1の場合は作成
される雑音励振信号は1個であり、それが選択された雑
音励振信号となる。選択数が8の場合は、予備選択を行
わない従来の手法であり、この場合、演算量が著しく多
くなっている。再生音声品質は値が大きい程、よいこと
を示し、従って本来は選択数が多くなる程、良くなるべ
きであるが、それ程変化がなかった。このことは、この
予備選択は可なり正しく行われることを示しているとも
言える。
FIG. 7 shows the amount of calculation required for noise excitation signal selection and the quality of reproduced voice when the number of pulse position selections from each group is changed. When the number of selections is 1, there is one noise excitation signal to be created, which is the selected noise excitation signal. When the number of selections is 8, it is a conventional method that does not perform preliminary selection, and in this case, the amount of calculation is significantly large. The reproduced voice quality shows that the higher the value, the better. Therefore, originally, the larger the number of selections, the better the quality should be, but there was not much change. This can be said to indicate that this preliminary selection is done fairly correctly.

【0028】上述ではこの発明を音声信号の符号化に適
用したが、音響信号の符号化にも適用できる。
Although the present invention has been applied to the coding of audio signals in the above, it can also be applied to the coding of acoustic signals.

【図面の簡単な説明】[Brief description of drawings]

【図1】Aは請求項1の発明の実施例の要部を示す流れ
図、Bは請求項2の発明の実施例の要部を示す流れ図で
ある。
FIG. 1 is a flow chart showing an essential part of an embodiment of the invention of claim 1, and B is a flow chart showing an essential part of an embodiment of the invention of claim 2.

【図2】請求項2の発明の実施例の要部を機能的に示し
たブロック図。
FIG. 2 is a block diagram functionally showing a main part of an embodiment of the invention of claim 2;

【図3】従来のCELP符号化法を機能的に示すブロッ
ク図。
FIG. 3 is a block diagram functionally showing a conventional CELP encoding method.

【図4】従来のACELP符号化法の一部を機能的に示
すブロック図。
FIG. 4 is a block diagram functionally showing a part of a conventional ACELP encoding method.

【図5】雑音励振信号をピッチ励振信号に対して直交化
し雑音励振信号を選択する従来の手法を機能的に示すブ
ロック図。
FIG. 5 is a block diagram functionally showing a conventional method of orthogonalizing a noise excitation signal with respect to a pitch excitation signal and selecting the noise excitation signal.

【図6】雑音励振信号作用の各グループのパルス位置の
例を示す図。
FIG. 6 is a diagram showing an example of pulse positions of each group of noise excitation signal action.

【図7】グループからの予備選択数と演算量と再生音声
品質との関係を示す図。
FIG. 7 is a diagram showing the relationship between the number of preliminary selections from a group, the amount of calculation, and the reproduced voice quality.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 入力音響信号から得た量子化フィルタ係
数の設定された合成フィルタを、ピッチ成分を表現する
ピッチ励振信号と雑音成分を表現する雑音励振信号の2
個の励振信号からなる時系列ベクトル成分によりフレー
ム単位ごとに駆動して音響信号を再生することを利用し
て音響信号を符号化し、かつ前記雑音励振信号を少数の
パルスで表現し、その各パルスの位置及び振幅を符号化
する音響信号符号化方法において、 前記雑音励振信号、前記入力音響信号、前記ピッチ励振
信号及び前記合成フィルタ係数から求められる値を利用
して前記雑音励振信号の候補を予備的に複数選択し、 さらにここで選択された前記各雑音励振信号の候補で前
記合成フィルタを駆動して得られる各合成音響信号と入
力音響信号との間の歪を求め、 前記歪を最小とする雑音励振信号を唯一つ選択すること
を特徴とする音響信号符号化方法。
1. A synthesizing filter in which a quantized filter coefficient obtained from an input acoustic signal is set to a pitch excitation signal expressing a pitch component and a noise excitation signal expressing a noise component.
The audio signal is encoded by utilizing the time-series vector component composed of the individual excitation signals to reproduce the audio signal by driving for each frame, and the noise excitation signal is represented by a small number of pulses, and each pulse In the acoustic signal encoding method for encoding the position and the amplitude of the noise excitation signal, the noise excitation signal, the input acoustic signal, the pitch excitation signal, and the value obtained from the synthesis filter coefficient are used to reserve the candidate of the noise excitation signal. A plurality of selected, further, the distortion between each synthetic acoustic signal and the input acoustic signal obtained by driving the synthetic filter with the candidate of each of the noise excitation signals selected here is obtained, and the distortion is minimized. A method for encoding an acoustic signal, characterized in that only one noise excitation signal is selected.
【請求項2】 入力音響信号から得た量子化フィルタ係
数の設定された合成フィルタを、ピッチ成分を表現する
ピッチ励振信号と雑音成分を表現する雑音励振信号の2
個の励振信号からなる時系列ベクトル成分によりフレー
ム単位ごとに駆動して音響信号を再生することを利用し
て音響信号を符号化し、かつ前記雑音励振信号を少数の
パルスで表現し、その各パルスの位置及び振幅を符号化
する音響信号符号化方法において、 前記雑音励振信号、前記入力音響信号、前記ピッチ励振
信号及び前記合成フィルタ係数から求められる値を利用
して前記雑音励振信号を構成するパルスの位置及び振幅
の候補を予備的に複数選択し、 さらにここで選択されたパルス位置により構成される前
記各雑音励振信号で前記合成フィルタを駆動して得られ
る各合成音響信号と入力音響信号との間の歪を求め、前
記歪を最小とする雑音励振信号を一つ選択することを特
徴とする音響信号符号化方法。
2. A synthesizing filter in which a quantized filter coefficient obtained from an input acoustic signal is set to a pitch excitation signal expressing a pitch component and a noise excitation signal expressing a noise component.
The audio signal is encoded by utilizing the time-series vector component composed of the individual excitation signals to reproduce the audio signal by driving for each frame, and the noise excitation signal is represented by a small number of pulses, and each pulse In the acoustic signal encoding method for encoding the position and amplitude of the pulse, the noise excitation signal is formed by using a value obtained from the noise excitation signal, the input acoustic signal, the pitch excitation signal, and the synthesis filter coefficient. A plurality of candidates for the position and amplitude of each of them are preliminarily selected, and each synthesized acoustic signal and input acoustic signal obtained by driving the synthesis filter with each of the noise excitation signals configured by the pulse positions selected here. And a noise excitation signal that minimizes the distortion is selected, and an acoustic signal coding method is characterized.
JP7185625A 1995-07-21 1995-07-21 Acoustic signal encoding method Pending JPH0934498A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7185625A JPH0934498A (en) 1995-07-21 1995-07-21 Acoustic signal encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7185625A JPH0934498A (en) 1995-07-21 1995-07-21 Acoustic signal encoding method

Publications (1)

Publication Number Publication Date
JPH0934498A true JPH0934498A (en) 1997-02-07

Family

ID=16174068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7185625A Pending JPH0934498A (en) 1995-07-21 1995-07-21 Acoustic signal encoding method

Country Status (1)

Country Link
JP (1) JPH0934498A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415254B1 (en) 1997-10-22 2002-07-02 Matsushita Electric Industrial Co., Ltd. Sound encoder and sound decoder

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415254B1 (en) 1997-10-22 2002-07-02 Matsushita Electric Industrial Co., Ltd. Sound encoder and sound decoder
US7024356B2 (en) 1997-10-22 2006-04-04 Matsushita Electric Industrial Co., Ltd. Speech coder and speech decoder
US7373295B2 (en) 1997-10-22 2008-05-13 Matsushita Electric Industrial Co., Ltd. Speech coder and speech decoder
US7499854B2 (en) 1997-10-22 2009-03-03 Panasonic Corporation Speech coder and speech decoder
US7533016B2 (en) 1997-10-22 2009-05-12 Panasonic Corporation Speech coder and speech decoder
US7546239B2 (en) 1997-10-22 2009-06-09 Panasonic Corporation Speech coder and speech decoder
US7590527B2 (en) 1997-10-22 2009-09-15 Panasonic Corporation Speech coder using an orthogonal search and an orthogonal search method
US7925501B2 (en) 1997-10-22 2011-04-12 Panasonic Corporation Speech coder using an orthogonal search and an orthogonal search method
US8332214B2 (en) 1997-10-22 2012-12-11 Panasonic Corporation Speech coder and speech decoder
US8352253B2 (en) 1997-10-22 2013-01-08 Panasonic Corporation Speech coder and speech decoder

Similar Documents

Publication Publication Date Title
JP3112681B2 (en) Audio coding method
US6408268B1 (en) Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
JPH11327597A (en) Voice coding device and voice decoding device
JPH09160596A (en) Voice coding device
JP3095133B2 (en) Acoustic signal coding method
JPH0934498A (en) Acoustic signal encoding method
JP3174742B2 (en) CELP-type speech decoding apparatus and CELP-type speech decoding method
JP3303580B2 (en) Audio coding device
JPH07101358B2 (en) Multi-pulse coding method and apparatus
JP3583945B2 (en) Audio coding method
JP2943983B1 (en) Audio signal encoding method and decoding method, program recording medium therefor, and codebook used therefor
JP2956068B2 (en) Audio encoding / decoding system
JPH0519795A (en) Excitation signal encoding and decoding method for voice
JP4191502B2 (en) Signal encoding method, apparatus thereof, and signal encoding program
JP2947788B1 (en) High-speed encoding method and apparatus for speech and audio signals and recording medium
JP3166697B2 (en) Audio encoding / decoding device and system
JP3103108B2 (en) Audio coding device
JP3192051B2 (en) Audio coding device
JPH02282800A (en) Sound encoding system
JPH09146599A (en) Sound coding device
JP3229784B2 (en) Audio encoding / decoding device and audio decoding device
JPH08202396A (en) Voice prediction coding method
JP3236851B2 (en) Sound source vector generating apparatus and sound source vector generating method
JP3236850B2 (en) Sound source vector generating apparatus and sound source vector generating method
JP3236849B2 (en) Sound source vector generating apparatus and sound source vector generating method