JPH03130800A - Voice encoding system - Google Patents

Voice encoding system

Info

Publication number
JPH03130800A
JPH03130800A JP1268050A JP26805089A JPH03130800A JP H03130800 A JPH03130800 A JP H03130800A JP 1268050 A JP1268050 A JP 1268050A JP 26805089 A JP26805089 A JP 26805089A JP H03130800 A JPH03130800 A JP H03130800A
Authority
JP
Japan
Prior art keywords
vector
matrix
filter
pitch
pitch period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1268050A
Other languages
Japanese (ja)
Other versions
JP3112462B2 (en
Inventor
Masami Akamine
政巳 赤嶺
Yuji Okuda
裕二 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP01268050A priority Critical patent/JP3112462B2/en
Priority to CA002027705A priority patent/CA2027705C/en
Priority to US07/598,989 priority patent/US5230036A/en
Priority to DE69032551T priority patent/DE69032551T2/en
Priority to EP90311396A priority patent/EP0424121B1/en
Publication of JPH03130800A publication Critical patent/JPH03130800A/en
Priority to US08/504,227 priority patent/USRE36646E/en
Application granted granted Critical
Publication of JP3112462B2 publication Critical patent/JP3112462B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To perform filter arithmetic recurrently, and to decrease a calculation quantity and perform real-time processing by setting the matrix of a driving signal to a Toeplitz matrix and using the characteristics of this matrix. CONSTITUTION:The signal series of a voice signal is inputted to an input terminal 101 and a block segmentation part 102 outputs a voice vector by putting sampled values in one frame and inputs it to an LPC analysis part 104 and a weighting filter 105. The analysis part 104 analyzes the voice signal and the filter 105 weights an extracted LPC prediction parameter. Then when a pitch period search is made, the LPC filter driving signal outputted by an adder 118 is inputted to a switch 115. The matrix of this driving signal is so set as to obtain the Toeplitz matrix, whose Toeplitz characteristics are utilized to find a pitch period recurrently by the filter arithmetic. Thus, the calculation quantity is reduced and the real-time processing is carried out.

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、音声信号等のディジタル信号系列の情報圧縮
・伝送に用いられるベクトル量子化に関し、ピッチパラ
メータ探索を適用した音声符号化方式である。
[Detailed Description of the Invention] [Object of the Invention] (Industrial Application Field) The present invention relates to vector quantization used for information compression and transmission of digital signal sequences such as audio signals, It is an encoding method.

(従来の技術) ベクトル量子化は音声信号や画像信号の符号化を効率的
に行う手法として、現在、最も注目されている技術の−
っである。特に、音声の符号化の分野においては、CE
 L P (Code ExcitedLinear 
Prediction)方式またはV X C(Vec
tor −・1xcited Coding)方式が、
ベクトル量子化を適用した優れた方式として知られてい
る。CELP方式の詳細な点については、M、R,5c
hroeder氏とB、S、Ata1氏の・・・・ “
Code−Excited Linear Pre−d
ictlon(CELP)  : High−Qual
ity 5peech At VeryLow =Bi
t Rates  1n Proc、 ICASSP、
 1985. pp。
(Prior art) Vector quantization is one of the technologies that is currently attracting the most attention as a method for efficiently encoding audio and image signals.
It is. In particular, in the field of audio coding, CE
L P (Code ExcitedLinear
Prediction method or V
tor-・1xcited coding) method is
It is known as an excellent method that applies vector quantization. For details on the CELP method, see M, R, 5c.
Mr. hroeder and Mr. B, S, Ata1… “
Code-Excited Linear Pre-d
ictron (CELP): High-Qual
ity 5peech At Very Low = Bi
tRates 1n Proc, ICASSP,
1985. pp.

937−939に述べられているが、以下この図面を参
照して簡単にCELP方式について説明する。第7図は
CELP方式の原理的構成を示すブロック図である。同
図において音声信号の信号系列が入力端子1から人力さ
れ、ブロック切出し部2においてL個のサンプル値を1
フレームとし、長さLの入力音声信号ベクトルとして3
より出力され、LPG分析部4に入力される。LPG分
析部4は、自己相関法等を用いて音声信号のLPG分析
を行い、LPC予測パラメータ (α、+(i−1・・
・P)l を抽出する。こ二でPは予測次数である。また、18に
よって、LPG予測残差信号ベクトルが出力され、ピッ
チ分析部21に入力されるピッチ分析部21はLPC予
測残差信号ベクトルを用いて音声の長期的予測であるピ
ッチ分析を行い、ピッチ周期(TP )とゲイン・パラ
メータ(b)を抽出する。
937-939, the CELP method will be briefly explained below with reference to this drawing. FIG. 7 is a block diagram showing the basic configuration of the CELP system. In the same figure, a signal sequence of an audio signal is inputted manually from an input terminal 1, and a block extraction section 2 extracts L sample values into one.
frame, and the input audio signal vector of length L is 3
The signal is output from the LPG analyzer 4 and input to the LPG analyzer 4. The LPG analysis unit 4 performs LPG analysis of the audio signal using an autocorrelation method etc., and calculates the LPC prediction parameter (α, +(i-1...
・Extract P)l. Here, P is the prediction order. In addition, the LPG predicted residual signal vector is outputted by 18 and inputted to the pitch analyzer 21.The pitch analyzer 21 uses the LPC predicted residual signal vector to perform pitch analysis, which is a long-term prediction of speech, and performs pitch analysis. Extract the period (TP) and gain parameter (b).

この抽出された、LPG測パラメータとピッチ周期、ゲ
イン・パラメータは、それぞれLPG合成フィルター4
とピッチ合成フィルタ23で合成音声を生成する際に利
用される。
The extracted LPG measurement parameters, pitch period, and gain parameters are each input to the LPG synthesis filter 4.
and is used when the pitch synthesis filter 23 generates synthesized speech.

次に合成音声生成の過程について説明する。コード・ブ
ック17には、次元数k(ベクトルの要素数)のn個の
白色雑音ベクトルが入っている。ここでkは一般にL/
Kが整数になるように選ばれる。
Next, the process of generating synthesized speech will be explained. The code book 17 contains n white noise vectors of dimension k (number of vector elements). Here k is generally L/
K is chosen to be an integer.

このコード・ブック17の中の3番目の白色雑音ベクト
ルにゲイン・パラメータ22を掛けて、ピッチ合成フィ
ルタ23とLPG合成フィルター4に通すことにより、
24より、合成音声ベクトルが生成される。この時のピ
ッチ合成フィルタ23の伝達関数p (z)とLPG合
戊フィルタ14の伝達関数A (Z)は次の通りである
By multiplying the third white noise vector in this code book 17 by the gain parameter 22 and passing it through the pitch synthesis filter 23 and the LPG synthesis filter 4,
24, a synthesized speech vector is generated. At this time, the transfer function p (z) of the pitch synthesis filter 23 and the transfer function A (Z) of the LPG synthesis filter 14 are as follows.

P(Z) 41/ (1+b z−” )(2)この生
成された合成音声ベクトルは、目標ベクトルである入力
音声ベクトルと共に2乗誤差計算部19に入力され、そ
こで合成音声ベクトルと入力音声ベクトルとのユークリ
ッド距i1t!Ejが求められる。最小歪探索部19は
Ejの最小値をサーチする。この過程をn個の白色雑音
ベクトルすべてについて行ない、その最小値を与える白
色雑音ベクトルの番号jが選ばれる。つまりCELP方
式は音声合成の過程における合成フィルタの駆動信号に
コード・ブックを用いることによってベクトル量子化を
行なっているところに特徴がある。なお、人力音声ベク
トルは長さLであるため、この過程はL/に回繰り返さ
れることになる。また図中の重み付はフィルタ5は誤差
信号のスペクトルを成形して、人間の耳によって知覚さ
れるであろう歪を低減するために用いられており、その
伝達関数は次式で与えられる。
P(Z) 41/ (1+b z-" ) (2) This generated synthesized speech vector is input to the squared error calculation unit 19 together with the input speech vector which is the target vector, where the synthesized speech vector and the input speech vector are The Euclidean distance i1t!Ej from In other words, the CELP method is characterized in that it performs vector quantization by using a code book for the drive signal of the synthesis filter in the process of speech synthesis.In addition, since the human speech vector has length L, , this process will be repeated L/ times. Also, the weighting in the figure indicates that the filter 5 is used to shape the spectrum of the error signal and reduce the distortion that would be perceived by the human ear. The transfer function is given by the following equation.

H(Z)  −A(Z)  −P(Z)       
     (4)実際にCELP方式を符号器として用
いる時にはLPC予測パラメータ、ピッチ周期、ピッチ
のゲイン・パラメータ、コード・ブック番号、コード・
ブック・ゲインが符号化されて、復号器に伝送されるこ
とになる。
H(Z) -A(Z) -P(Z)
(4) When actually using the CELP method as an encoder, LPC prediction parameters, pitch period, pitch gain parameters, code book number, code...
The book gain will be encoded and transmitted to the decoder.

第8図は機能的には、第7図と全く同一の処理を行うC
ELP方式のブロック図である。第8図においては、重
み付はフィルタ5は、従来のコード・ブック探索のルー
プの中の位置より、外に移動させられている。これはピ
ッチ合成フィルタ23(7) P (Z) ヲP (’
) 、  L P G合成フィルター4(7)γ A (Z)をA(z−)とすることにより同じ機能をも
γ たせたまま、計算量を少なくすることを可能をする。
Figure 8 is functionally a C which performs exactly the same processing as Figure 7.
FIG. 2 is a block diagram of the ELP method. In FIG. 8, the weighting filter 5 has been moved out of its position within the loop of the conventional code book search. This is the pitch synthesis filter 23 (7) P (Z) woP ('
), LPG synthesis filter 4 (7) By replacing γ A (Z) with A(z-), it is possible to reduce the amount of calculation while maintaining the same function γ .

またピッチ合成フィルタ23とLPG合成フィルタ14
のフィルタ演算における初期メモリが合成音声の生成に
よるコード・ブックの探索に影響を与えないようにして
いる。すなわち初期メモリを持ったピッチ合成フィルタ
25とLPG合成フィルタ7を設けて、8により出力さ
れる零人カベクトルをあらかじめ6により出力される重
み付き人力音声ベクトルから差し引き、それを目標ベク
トルとすることにより、ピッチ合成フィルタ23とLP
G合成フィルタ14の初期メモリを零にすることを可能
とする。また、同時にこれは従来、合成音声の生成か、
コード・ベクトルを入力とする合成フィルタのフィルタ
演算で行なわれていたものを、コード・ベクトルと次の
kXkの下方の三角行列との積で表わすことを可能にす
る。
In addition, the pitch synthesis filter 23 and the LPG synthesis filter 14
The initial memory in the filter operation is made to not affect the search of the code book by the generation of synthesized speech. That is, by providing a pitch synthesis filter 25 and an LPG synthesis filter 7 having initial memories, and subtracting the zero person vector outputted by 8 from the weighted human voice vector outputted by 6 in advance, and using it as the target vector. , pitch synthesis filter 23 and LP
It is possible to set the initial memory of the G synthesis filter 14 to zero. Also, at the same time, is this conventionally generated synthetic speech?
What was previously performed in the filter operation of a synthesis filter that receives a code vector as input can now be expressed as the product of the code vector and the next kXk lower triangular matrix.

ここにおいてkはコード・ブック17のコード・ベクト
ルの次元数(要素数)であり、h(1)、i−1・・・
kはH(”−)の初期メモリが零の時の長さγ にのインパルス応答である。
Here, k is the number of dimensions (number of elements) of the code vector of code book 17, h(1), i-1...
k is an impulse response of length γ when the initial memory of H(''-) is zero.

以上より第8図における11により出力されるベクトル
を目標ベクトルとし、2乗誤差計算部19により次のE
jを求め、最小歪探索部20により最小値を求める。
From the above, the vector outputted by 11 in FIG. 8 is set as the target vector, and the square error calculation unit 19 calculates
j is determined, and the minimum distortion search unit 20 determines the minimum value.

E j −If Xt−7,HC,II (j−1,2
,=−n)(e)J ここで、Xtは目標とする入力ベクトル2 C1はj番
目のコード・ベクトル、γjはj番目のコード・ベクト
ルに対する最適なゲイン・パラメータである。
E j -If Xt-7,HC,II (j-1,2
,=-n)(e)J Here, Xt is the target input vector 2, C1 is the j-th code vector, and γj is the optimal gain parameter for the j-th code vector.

このEjを求め、その最小値を与えるベクトル番号jを
求めるフローチャートを第9図に示す。
FIG. 9 shows a flowchart for determining this Ej and determining the vector number j that gives the minimum value.

この処理においては、まず、個々のjに対してHCjを
求める必要があり、k(k+1)/2・n回の乗算を必
要とし、一般的に用いられるk −40,・・n−10
24の場合には、839680回の乗算を必要とする。
In this process, it is first necessary to obtain HCj for each j, which requires k(k+1)/2·n multiplications, and the commonly used k -40,...n-10
24 requires 839,680 multiplications.

また、フロー全体においてはL/に−4とすると1フレ
ーム当り 1048736回の乗算を必要とする。
Furthermore, in the entire flow, if L/ is set to -4, 1048736 multiplications are required per frame.

すると1フレームのサンプル数L−180で、入力音声
のサンプリング周波数が13KHzの時には52MIP
S程度の乗算を必要とし、20旧PSの乗算能力をもつ
DSPでも3回必要となる。
Then, when the number of samples in one frame is L-180 and the sampling frequency of the input audio is 13KHz, it is 52MIP.
This requires about S multiplications, and even a DSP with a multiplication capacity of 20 old PSs requires three times.

また、CELP方式の音質の改善方法としてピッチ予測
の閉ループ化あるいは適応コード・ブックと呼ばれる方
法が知られている。この方式の詳細な点についてはW、
B、KIeijln、D、J、Krasinskian
d RH,XetchuIIl、   ” lll1p
roved 5peech Qualityand E
frlclent Vector Quantizat
ion In CELP ”in Proc ICA!
l;SP、(L988.ppL55− ++ 158)
に述べられている。
Further, as a method for improving the sound quality of the CELP method, a method called closed-loop pitch prediction or adaptive code book is known. For details on this method, see W.
B., K.I., D., J., Krasinskian.
d RH, XetchuIIl, ”lll1p
roved 5peech Quality and E
frlclent Vector Quantizat
ion In CELP ”in Proc ICA!
l;SP, (L988.ppL55- ++ 158)
It is stated in

以下図面を参照して、簡単にピッチ予測の閉ルブ化ある
いは適応コード・ブックと呼ばれる方法によるCELP
について説明する。第10図はその原理的構成を示すブ
ロック図である。ピッチ予測の閉ループあるいは適用コ
ード・ブックと呼ばれる方法によるCELPと第7図の
CELPとの違いはピッチ分析の違いにある。第7図に
おいてはピッチの分析はLPG分析部よりの出力である
LPC予測残差信号ベクトルによりピッチ分析されてい
る。一方策10図のCELPはピッチ分析がコード・ブ
ックの探索同様に閉ループ化されているところに特徴が
ある。このCELPにおいでは18より出力されたLP
G合成フィルタ駆動信号はピッチ探索範囲a−bに渡っ
て可変する遅延器13を通り、ピッチ周期jに対する駆
動信号ベクトルを作る。これにより出力される前のフレ
ームの影響を除いた重み付き人力ベクトルを目標ベクト
ルとするピッチ探索が行なわれる。
Referring to the drawings below, we will briefly explain CELP using a method called closed rubbization of pitch prediction or adaptive code book.
I will explain about it. FIG. 10 is a block diagram showing its basic configuration. The difference between CELP based on a method called a pitch prediction closed loop or applied code book and the CELP shown in FIG. 7 lies in the difference in pitch analysis. In FIG. 7, pitch analysis is performed using the LPC prediction residual signal vector output from the LPG analysis section. On the other hand, CELP shown in Figure 10 is characterized in that the pitch analysis is performed in a closed loop similar to the code book search. In this CELP, the LP output from 18
The G synthesis filter drive signal passes through a delay device 13 that is variable over the pitch search range a-b to create a drive signal vector for pitch period j. As a result, a pitch search is performed using a weighted human vector, which excludes the influence of the frame before being output, as a target vector.

この時2乗距離歪による評価部より、次のEjが求まる
At this time, the following Ej is found by the evaluation section using square distance distortion.

Ej−11X1−γjHBj 11(a≦j≦b)  
(7)ここでX7は目標ベクトル、Bjはピッチ周期j
の時の駆動信号ベクトルγ、はピッチ周期jに対する最
適な利得因数、Hは(5)式で与えられ、h(iN−1
・・・kはA C”−)の初期メモリが零の時のγ 長さkのインパルス応答である。
Ej-11X1-γjHBj 11 (a≦j≦b)
(7) Here, X7 is the target vector, Bj is the pitch period j
The drive signal vector γ when , is the optimal gain factor for pitch period j, H is given by equation (5),
. . . k is an impulse response of γ length k when the initial memory of AC"-) is zero.

このE、を求めその最小値を与えるピッチ周期」 を求めるフローチャートを第11図に示す。この処理に
おいては、まず個々のtとjに対してHBjを求める必
要があり、k(k+1)/2− (b−a+1)・L/
に回の乗算を必要とし、一般に用いられるに−40,L
 −180,a −20,b −147の場合に419
840回の乗算を必要とする。また、フロー全体におい
てはlフレーム当り461312回の乗算を必要とする
。すると、入力音声サンプリング周波数8K)Izの時
には23MIPS程度の乗算を必要とし、20MIPS
の乗算能力をもつDSPでも2個必要となる。
FIG. 11 shows a flowchart for determining the pitch period which determines this E and gives its minimum value. In this process, it is first necessary to find HBj for each t and j, and k(k+1)/2-(b-a+1)・L/
It requires -40,L multiplications and is commonly used.
-180,a -20,b 419 in case of -147
Requires 840 multiplications. Furthermore, the entire flow requires 461312 multiplications per frame. Then, when the input audio sampling frequency is 8K) Iz, approximately 23 MIPS of multiplication is required, and 20 MIPS
Even a DSP with a multiplication capacity of

(発明が解決しようとする課題) 上述の如< CELP方式におけるコード・ブックの探
索および閉ループあるいは適応コード・ブックと呼ばれ
るピッチ周期の探索においては、多大な計算量を必要と
し、D S P (DigitalSignal Pr
ocesser)等で実時間処理する際に問題となって
いた そこで、本発明はこの問題点を除去し、DSP等で実時
間処理できるまでに計算量を削減できる音声符号化方式
を提供することを目的としている。
(Problems to be Solved by the Invention) As mentioned above, the code book search and the pitch period search called a closed-loop or adaptive code book in the CELP method require a large amount of calculation, and DSP (Digital Signal Pr
Therefore, the present invention aims to provide an audio encoding method that can eliminate this problem and reduce the amount of calculation to the point where real-time processing can be performed using a DSP or the like. The purpose is

[発明の構成] (課題を解決するための手段) 本発明は、閉ループあるいは適応コード・ブックと呼ば
れるピッチ予DIにおいて駆動ベクトルにフィルタ演算
を行なったベクトルと入力ベクトルとの歪が最も小さく
なるピッチ周期を探索する際に、駆動信号行列がテブリ
ッツ行列となるようにした後、テブリッツ特性を利用す
ることにより、フィルタ演算を再帰的に求める音声符号
化方式である。
[Structure of the Invention] (Means for Solving the Problems) The present invention provides a pitch that minimizes distortion between a vector obtained by performing a filter operation on a drive vector and an input vector in pitch pre-DI called a closed-loop or adaptive code book. When searching for a period, this is an audio encoding method in which the driving signal matrix is set to be a Tebritz matrix, and then a filter operation is recursively determined by using the Tebritz characteristic.

(作用) 本発明では、閉ループあるいは適応コード・ブックと呼
ばれるピットチ予測において、駆動信号行列をテプリッ
ツ行列にし、テブリッツ特性を利用することにより、フ
ィルタ演算を再帰的に高速に求めることを可能にしてい
るので、乗算回数を削減することができる。
(Operation) In the present invention, in Pittsch prediction called a closed-loop or adaptive code book, the driving signal matrix is made into a Toeplitz matrix, and by utilizing the Tebritz characteristic, it is possible to obtain the filter operation recursively and at high speed. Therefore, the number of multiplications can be reduced.

(実施例) 以下、図面を参照して本発明の一実施例を説明する。(Example) Hereinafter, one embodiment of the present invention will be described with reference to the drawings.

第1図は、本発明の一実施例に係るピッチパラメータ探
索方式を適用した音声符号方式の原理的構成を示すブロ
ック図である。同図において、音声信号の信号系列が入
力端子101がら入力され、ブロック切出し部102に
おいてL個のサンプル値を1つのフレームとして長さL
の入力信号音声ベクトルとして出力されて、LPG分析
部104及び重み付はフィルタ 105に各々入力され
る。LPG分析部104は、自己相関法等を用いて音声
信号のLPG分析を行い、LPG予測パラメータ・・・
・ 1ail  (i−1・・・・P)を抽出する。こ
こでPは予測次数である。この抽出されたLPC予測パ
ラメータはLPG合成フィルタ1(17,109,11
4で利用される。重み付はフィルタ105は、LPC分
析部104により抽出されたLPG予測パラメータ (
at)により、入力信号ベクトルに重み付けを行うこと
を目的とし本来のコード・ブック探索およびピッチ周期
探索のループの内の位置より、外に移動させられている
。これはLPG合成フィルタ 107,109,114
においてA (Z)をA(りとすることにより誤差信号
のスγ ベクトルを成形して、人間の耳によって知覚されるであ
ろう歪を低減する機能をもたせたまま、計算量を少なく
することを可能とする。その重み付はフィルタの伝達関
数W (Z)は次の式で与えられる。
FIG. 1 is a block diagram showing the basic configuration of a speech coding system to which a pitch parameter search method according to an embodiment of the present invention is applied. In the same figure, a signal sequence of an audio signal is input through an input terminal 101, and a block extraction unit 102 sets L sample values as one frame and has a length L.
The input signal is output as a speech vector, and is input to the LPG analysis section 104 and the weighting filter 105, respectively. The LPG analysis unit 104 performs LPG analysis of the audio signal using an autocorrelation method or the like, and calculates LPG prediction parameters...
- Extract 1ail (i-1...P). Here P is the prediction order. This extracted LPC prediction parameter is the LPG synthesis filter 1 (17, 109, 11
Used in 4. The weighting filter 105 uses the LPG prediction parameters extracted by the LPC analysis unit 104 (
at), it is moved out of the original code book search and pitch period search loop for the purpose of weighting the input signal vector. This is LPG synthesis filter 107, 109, 114
By changing A (Z) to A (R), the error signal Sγ vector is shaped to reduce the amount of calculation while maintaining the function of reducing distortion that would be perceived by the human ear. The weighting allows the transfer function W (Z) of the filter to be given by the following equation.

W(Z) −A (’) /A(Z)  (0≦7 ≦
1 ) (8)γ また、LPG合成フィルタ 109,114のフィルタ
演算における初期メモリが合成音声の生成におけるピッ
チ周期の探索あるいはコード・ブックの検索に影響を与
えるようにしている。すなわち零の値の初期メモリ 1
08を持ったLPG合成フィルタ107を設けて、その
合成フィルタから出力される零入力応答ベクトルを作り
、あらかじめ加算器lO6から出力される重み付き人力
音声ベクトルから差し引くことにより、LPG合成フィ
ルタの初期メモリを零にすることを可能とする。また、
同時にこれは、ピッチ周期探索における駆動信号ベクト
ルを入力とするLPG合成フィルタのフィルタ演算ある
いは、コード・ブック探索におけるコードベクトルを入
力とするLPC合成フィルタのフィルタ演算が、それぞ
れ駆動信号ベクトルあるいはコード・ベクトルと次のk
Xkの下方の三角行列との積で表わすことを可能とする
W(Z) −A (') /A(Z) (0≦7≦
1) (8) γ In addition, the initial memory in the filter calculation of the LPG synthesis filters 109 and 114 is designed to influence the pitch period search or code book search in the generation of synthesized speech. i.e. initial memory with zero value 1
The initial memory of the LPG synthesis filter is It is possible to reduce the value to zero. Also,
At the same time, this means that the filter operation of an LPG synthesis filter that takes a drive signal vector as an input in a pitch period search or the filter operation of an LPC synthesis filter that takes a code vector as an input in a code book search is a drive signal vector or a code vector, respectively. and the next k
This allows it to be expressed as a product of Xk and a lower triangular matrix.

ここで、kは、駆動信号ベクトル及びコード・ベクトル
の次元数(要素数)であり、kは一般にL/Kが整数に
なるように選ばれる。また、h(1)。
Here, k is the number of dimensions (number of elements) of the drive signal vector and code vector, and k is generally selected such that L/K is an integer. Also, h(1).

i−1,・・・・・・、には、A (”−>の初期メモ
リが零γ の時の長さkのインパルス応答である。
i-1, . . . are impulse responses of length k when the initial memory of A(''-> is zero γ).

ピッチ周期探索においては、加算器11111から出力
されたLPG合成フィルタ駆動信号eが、まず、スイッ
チ115に人力され、そこで探索するピッチ周期jがコ
ードベクトルの次元数に以上であるときは遅延器116
へ、K未満であるときは波形結合器へ入力され、ピッチ
の探索範囲a −bに渡って、ピッチ周期jに対する駆
動信号ベクトルが作成される。この処理の様子を図を使
いながら詳しく説明する。カウンタ −Hでピッチ周期
の探索範囲a〜bに渡って、ピッチ周期jをインクリメ
ントしその値を駆動信号部112.スイッチ115.遅
延器11Bに出力する。ピッチ周期jかに以上である時
は第2図の(1)に示すように遅延器によって作成され
る過去の駆動信号ベクトルeから駆動信号ベクトルBj
を作る。すなわち e −(e (−b)、  e (−b+1)= ・−
e (−1))   (11)−(e (−D、  e
 (−j+1)、  ・−e (−j+に−1)) t
(j=に、に+1.  ・・・・、b)  (12)こ
こで、B、は周期jの時の駆動信号ベクトルである。ま
た、tは転置を表わす。次に、ピッチ周期jかに未満で
ある時は、レジスタ −10に格納されている前サブフ
レームのピッチ周期Pの分の過去の駆動信号(e (−
P)、  e (−p+t)−++ e (−1))を
過去の駆動信号ベクトルeに結合し、e′としそのe′
から駆動信号ベクトルを作成する。即ち、B j = 
(e(−j)、e(−j+1l−e(−L)e(−P)
e(−P+1)−e(−P+に−j−1))’    
 (13)(j=a、a+1.・・・K−1) この様にすることにより、駆動ベクトルBjの各要素を
(bj(1)、bj(2)、・・・・・・b j(k)
)Tとした時、b −(Ill) −b −(o+−1
) (a+1≦j≦b、2≦J         J−
1 m≦k)の関係を持たせることが出来、駆動信号ベクト
ルB、を列ベクトルとする駆動信号行列Bを次に示すよ
うに完全なテブリッッ行列にすることができる。
In the pitch period search, the LPG synthesis filter drive signal e output from the adder 11111 is first input to the switch 115, and when the pitch period j to be searched there is greater than or equal to the number of dimensions of the code vector, the LPG synthesis filter drive signal e is input to the delay device 116.
, if it is less than K, it is input to the waveform coupler, and a drive signal vector for the pitch period j is created over the pitch search range a-b. This process will be explained in detail using diagrams. The counter -H increments the pitch period j over the pitch period search range a to b, and sends the value to the drive signal section 112. Switch 115. Output to delay device 11B. When the pitch period j is greater than or equal to 1, the drive signal vector Bj is changed from the past drive signal vector e created by the delay device as shown in (1) in FIG.
make. That is, e −(e (-b), e (-b+1)= ・−
e (-1)) (11)-(e (-D, e
(−j+1), ・−e (−1 to −j+)) t
(j=to, ni+1. . . . , b) (12) Here, B is the drive signal vector at period j. Further, t represents transposition. Next, when the pitch period is less than j, the past drive signal (e (-
P), e (-p+t)-++ e (-1)) is combined with the past drive signal vector e, and the e'
Create a driving signal vector from That is, B j =
(e(-j), e(-j+1l-e(-L)e(-P)
e(-P+1)-e(-P+ to -j-1))'
(13) (j=a, a+1...K-1) By doing this, each element of the drive vector Bj is (bj (1), bj (2),...b j (k)
) T, b −(Ill) −b −(o+−1
) (a+1≦j≦b, 2≦J J−
1 m≦k), and the drive signal matrix B having the drive signal vector B as a column vector can be made into a complete Teblitt matrix as shown below.

ピッチ周期の探索は、加算器10Bより出力される前の
フレーム影響を除いた重み付き人力ベクトル目標ベクト
ルとして、誤差を最小にするピッチ周期を求める。この
時の誤差の2乗距離による歪。
In the search for the pitch period, a pitch period that minimizes the error is determined as a weighted human vector target vector that is output from the adder 10B and excludes the influence of the previous frame. Distortion due to the square distance of the error at this time.

Ejは次の計算式により求まる。Ej is determined by the following formula.

E、−11X  −7,HB、If(a≦j≦b)  
(15)J        tJ      Jここで
、Xtは目標ベクトル、Bjはピッチ周期Jの時の駆動
信号ベクトル、γjはピッチ周期jに対する最適な利得
因数、Hは(10)式で与えられるものである。
E, -11X -7, HB, If (a≦j≦b)
(15) J tJ J Here, Xt is the target vector, Bj is the drive signal vector at pitch period J, γj is the optimal gain factor for pitch period j, and H is given by equation (10).

式(15〉の計算に当り、駆動信号行列がテプリ・ノツ
行列であり、また、重み付き、LPG合成フィルタも下
方の三角行列でかつ、テブリツツ行列である性質を利用
するとHBjの演算、即ちフィルタリングの演算を次式
のように再帰的に行うことができる。
In calculating Equation (15), if we use the properties that the driving signal matrix is a Tepli-Knots matrix and that the weighted LPG synthesis filter is also a lower triangular matrix and a Teblitz matrix, the calculation of HBj, that is, the filtering can be performed recursively as shown in the following equation.

V 、  (1)  −h (1)  e (−D  
          (1B)V−(n)−V、  (
m−1)+h(m)e(−j)J      J−1 (2≦m≦K) (17) (B+l≦ j ≦ b ) 但シ、(V、(1)、V−(2)、−V−(K))Tは
HBjコJ3 の要素である。
V , (1) -h (1) e (-D
(1B)V-(n)-V, (
m-1)+h(m)e(-j)J J-1 (2≦m≦K) (17) (B+l≦j≦b) However, (V, (1), V-(2), -V-(K))T is an element of HBjkoJ3.

このことにより、第3図のフローチャートに従えばHB
aのみを通常の行列−ベクトル積演算で求め、HB、(
all≦j≦b)はHB、  より再帰J      
                 コー1的に求める
ことが可能であるので、必要な乗算回数は、IK(K+
1)/2+K(b−a)J  ・L/Kに削減される。
As a result, if you follow the flowchart in Figure 3, HB
Only a is found by ordinary matrix-vector product operation, and HB, (
all≦j≦b) is HB, more recursive J
The required number of multiplications is IK(K+
1)/2+K(ba)J ・Reduced to L/K.

−船釣に用いられるk −40,L −180,a −
20゜b−147の場合には、23600回の乗算とな
る。
- K -40, L -180, a used for boat fishing -
In the case of 20°b-147, there are 23,600 multiplications.

またフロー全体においては85072回の乗算となり、
第9図の従来の方法の14%程度の計算量で済み、入力
音声サンプリング周波数が8KHzの時には3JMIP
S程度の乗算で済む。
Also, in the entire flow, there are 85072 multiplications,
The calculation amount is about 14% of the conventional method shown in Figure 9, and when the input audio sampling frequency is 8KHz, it is 3JMIP.
A multiplication of about S is sufficient.

第1図において、こうしたピッチ・周波探索により最適
なピッチ周Mjが求まると、加算器106から出力され
る前のフレームの影響を除いた重み付き人力音声ベクト
ルから、LPG合成フィルタ109の出力である最適な
ピッチ周期jによるピッチによる合成音声ベクトルが差
し引かれ、前のフレームの影響とピッチによる影響を除
いた重み付き入力音声ベクトルが出力される。
In FIG. 1, when the optimum pitch frequency Mj is determined by such pitch/frequency search, the output of the LPG synthesis filter 109 is obtained from the weighted human speech vector outputted from the adder 106 and excluding the influence of the previous frame. The pitched synthesized speech vector with the optimum pitch period j is subtracted, and a weighted input speech vector excluding the influence of the previous frame and the pitch is output.

次に、コード・ブック検索においては、加算器131の
出力である前のフレームの影響とピッチによる影響を除
いた重み付き人力音声ベクトルを目標ベクトルとして、
コード・ブック 117のコード・ベクトルにより、合
成音声が生成される。そしてその誤差の2乗距離による
歪Ejが最も小さくなるコード・ベクトル番号jが選ば
れる。この過程は次式で表わされる。
Next, in the code book search, the weighted human speech vector, which is the output of the adder 131 and which excludes the influence of the previous frame and the influence of pitch, is used as the target vector.
Synthesized speech is generated by the code vectors in the code book 117. Then, the code vector number j whose distortion Ej due to the squared distance of the error is the smallest is selected. This process is expressed by the following equation.

E、−11X  −7,HC,It(1≦j≦n)  
(14)tJJ ここでXは前のフレームの影響とピッチによる影響を除
いた重み付き人力ベクトル、Cjはj番目のコード・ベ
クトル、γjはj番目のコード・ベクトルに対する最適
な利得因数、nはコード・ベクトルの個数である。
E, -11X -7,HC,It (1≦j≦n)
(14) tJJ where X is a weighted human vector excluding the influence of the previous frame and pitch, Cj is the jth code vector, γj is the optimal gain factor for the jth code vector, and n is the This is the number of code vectors.

モしてC0が独立な白色雑音で構成されているコ 時にこのE、を求め、その最小値を与えるコード・ブッ
ク番号を求めるには式(14)のHC,を求めるのに多
くの計算量を必要とする。
When C0 is composed of independent white noise, it takes a large amount of calculation to find E and to find the code book number that gives its minimum value. Requires.

そこで、本発明においては計算量を削減するためにCj
を第4図のように長さ・n+に−1の1ケの白色雑音系
列Uの後方より1サンプルだけシフトして長さkのサン
プルを切り出したものとする。
Therefore, in the present invention, in order to reduce the amount of calculation, Cj
As shown in FIG. 4, it is assumed that a sample of length k is cut out by shifting one sample from the rear of a one-digit white noise sequence U of length n+ -1.

この時には第4図かられかるようにC,(m)−・・C
,(m−1)  (Z≦j≦n、2≦m≦k)の関係−
1 があり、コード・ベクトルC1を各列ベクトルとしたコ
ード・ブック行列Cは、テンプリッツ行列であるという
特徴を有する。この時には、IC。
At this time, as shown in Figure 4, C, (m)--C
, (m-1) (Z≦j≦n, 2≦m≦k) -
1, and the code book matrix C with the code vector C1 as each column vector has the characteristic that it is a Templitz matrix. At this time, IC.

の各要素を(W、 (1)、W、 (2)、・・・・・
・W、(k))TシコJJ した時には次の関係式が成り立ち再帰的に求まる。
Let each element of (W, (1), W, (2),...
・W, (k))TshikoJJ When this happens, the following relational expression holds true and can be found recursively.

Wj(1) = h (1) U (n+1−j)  
 (2≦m≦k)W、(m)−Wj−1(+1−1)(
2≦j≦n)十h (m) U (n+1−D このことにより、第5図のフロー・チャートに従えばH
Clのみを通常の行列−ベクトル積演算で求め、HCo
(Z5j*n)はHC,より再J          
           J−1帰的に求めることが可能
であるので必要な演算回数は、tll (K+1)/2
+K ・(n−1)lに削減される。
Wj (1) = h (1) U (n+1-j)
(2≦m≦k)W, (m)−Wj−1(+1−1)(
2≦j≦n) 10h (m) U (n+1−D Therefore, according to the flow chart in Fig. 5, H
Only Cl is determined by ordinary matrix-vector product operation, and HCo
(Z5j*n) is HC, more J
Since it is possible to find J-1 recursively, the number of operations required is tll (K+1)/2
+K·(n-1)l.

船釣に用いられるk −40,n−1024の場合には
、41740回の乗算となる。また、フロー全体におい
ては250796回となり、第8図のフローチャートに
よるものの24%程度の計算量となり、入力音声のサン
プリング周波数が8KHzの時には12.5MIPS程
度の乗算で済む。
In the case of k-40, n-1024 used for boat fishing, the number of multiplications is 41740 times. Further, the total number of calculations is 250,796 times in the entire flow, which is about 24% of the calculation amount according to the flowchart of FIG. 8, and when the sampling frequency of the input audio is 8 KHz, only about 12.5 MIPS of multiplication is required.

また逆にコード・ベクトルを長さn+に−1の1ケの白
色雑音系列の前方から1サンプルだけシフトして長さk
のサンプルを切り出したものとすることが可能であるが
、その際には個々のjに対してHCjを再帰的に求める
にはK(K+1)/2+(2に−1)(n−1)回の乗
算を必要とし、上述のものより(K−1)(n−1)回
の乗算が余分に必要となる。また、本方式によるコード
・ブック探索は第1回のピッチ予測の閉ループ化あるい
は適応コード・ブックと呼ばれるCELPのみでなく第
7図の構成のCELPにおいても(工0〉式のHのh 
(1)を(4)式によるH (−)に置き換えることに
より可能である。
Conversely, the code vector is shifted by one sample from the front of the one-digit white noise sequence of -1 to length n+, and
It is possible to cut out a sample of This method requires (K-1)(n-1) more multiplications than the one described above. In addition, the code book search using this method is not only possible in CELP, which is called a closed-loop first pitch prediction or adaptive code book, but also in CELP with the configuration shown in FIG.
This is possible by replacing (1) with H (-) according to equation (4).

γ また、第1図に於て、レジスタ −10から与えられる
ピッチ周期を自己相関法などの公知の方法によりフレー
ム単位で求め波形結合器130に与えることもできる。
γ In FIG. 1, the pitch period given from register -10 can also be determined in frame units by a known method such as the autocorrelation method and given to the waveform combiner 130.

この場合の実施例に係る音声符号化方式の原理的構成を
示すブロック図を第6図に示す。更に、ピッチ周期jか
に未満である時に波形結合器130の処理として、零ベ
クトルを過去の駆動信号ベクトルeに結合し、それから
駆動信号ベクトルを作成することもできる。この場合は
、更に計算量を減らすことができる。
FIG. 6 shows a block diagram showing the basic configuration of the audio encoding system according to the embodiment in this case. Furthermore, when the pitch period j is less than J, the waveform combiner 130 can combine the zero vector with the past drive signal vector e and create a drive signal vector from it. In this case, the amount of calculation can be further reduced.

[発明の効果] 以上説明したように、本発明によれば、閉ループあるい
は適応コード・ブックと呼ばれるピッチ予測において、
駆動信号行列をテブリッツ行列とし、その特性を利用4
することにより、フィルタ演算を再帰的に求めることが
でき、またコード・ブックの探索においてコード・ブッ
ク行列をテプリッツ行列とすることにより、フィルタ演
算を再帰的に求めることができるので計算量が削減され
る利点がある。
[Effects of the Invention] As explained above, according to the present invention, in pitch prediction called a closed-loop or adaptive code book,
Let the drive signal matrix be a Tebritz matrix and use its characteristics 4
By doing this, the filter operation can be found recursively, and by using the code book matrix as a Toeplitz matrix in the code book search, the filter operation can be found recursively, which reduces the amount of calculation. It has the advantage of

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示すブロック図。 第2図は本発明の詳細な説明するための図、第3図は本
発明の一実施例の計算手段を説明するためのフローチャ
ート、第4図は本発明の一実施例を説明するための図、
第5図は本発明の一実施例の計算手段を説明するための
フローチャート、第6図は本発明の他の実施例を示すブ
ロック図、第7図は従来の技術を説明するためのブロッ
ク図。 第8図は従来の技術を説明するためのブロック図。 ためのフローチャートである。 1.101・・・入力端子、2,102・・・ブロック
切出し部。 3・・・出力端子、4,104・・・LPG分析部。 5.105・・・重み付はフィルタ、6・・・出力端子
。 ? 、L07.109.114・・・I、PC合成フィ
ルタ。 8・・・出力端子、9・・・LPG合成フィルタ。 10・・・出力端子、 11・・・出力端子。 12.112・・・駆動信号部、 13,116・・・
遅延器。 t4・・・LPG合成フィルタ、15・・・出力端子。 16・・・出力端子、 17,117・・・コード・ブ
ック。 18・・・出力端子、 19.119・・・2乗誤差計
算部。 20.120・・・最小歪探索部、103・・・ピッチ
分析部。 106.131,132・・・加算器、 21・・・ピ
ッチ分析部。 22・・・ゲイン・パラメータ。 23・・・ピッチ合成フィルタ部、24・・・出力端子
。 25・・・ピッチ合成・フィルタ部。 26・・・2乗距離歪による評価部。
FIG. 1 is a block diagram showing one embodiment of the present invention. FIG. 2 is a diagram for explaining the present invention in detail, FIG. 3 is a flowchart for explaining the calculation means of one embodiment of the present invention, and FIG. 4 is a diagram for explaining one embodiment of the present invention. figure,
FIG. 5 is a flowchart for explaining the calculation means of one embodiment of the present invention, FIG. 6 is a block diagram for explaining another embodiment of the present invention, and FIG. 7 is a block diagram for explaining the conventional technique. . FIG. 8 is a block diagram for explaining the conventional technology. This is a flowchart for 1.101...Input terminal, 2,102...Block cutting section. 3... Output terminal, 4,104... LPG analysis section. 5.105... Weighting is a filter, 6... Output terminal. ? , L07.109.114...I, PC synthesis filter. 8...Output terminal, 9...LPG synthesis filter. 10... Output terminal, 11... Output terminal. 12,112... Drive signal section, 13,116...
delay device. t4...LPG synthesis filter, 15...output terminal. 16...Output terminal, 17,117...Code book. 18... Output terminal, 19.119... Squared error calculation unit. 20.120...Minimum distortion search unit, 103...Pitch analysis unit. 106.131, 132...Adder, 21...Pitch analysis section. 22...Gain parameter. 23... Pitch synthesis filter section, 24... Output terminal. 25... Pitch synthesis/filter section. 26...Evaluation section based on square distance distortion.

Claims (1)

【特許請求の範囲】[Claims] 駆動ベクトルにフィルタ演算を行なった駆動信号ベクト
ルと目標とされる入力ベクトルとの歪が最も小さくなる
ようピッチ周期を探索する音声符号化方式において、駆
動信号の行列がテプリッツ行列となるよう設定し、この
テプリッツ行列のテプリッツ特性を利用することにより
、前記フィルタ演算を再帰的に求めることを特徴とする
音声符号化方式。
In an audio encoding method that searches for a pitch period so that the distortion between a drive signal vector obtained by performing a filter operation on a drive vector and a target input vector is minimized, the matrix of the drive signal is set to be a Toeplitz matrix, A speech encoding method characterized in that the filter operation is recursively obtained by utilizing the Toeplitz characteristic of the Toeplitz matrix.
JP01268050A 1989-10-17 1989-10-17 Audio coding device Expired - Lifetime JP3112462B2 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP01268050A JP3112462B2 (en) 1989-10-17 1989-10-17 Audio coding device
CA002027705A CA2027705C (en) 1989-10-17 1990-10-16 Speech coding system utilizing a recursive computation technique for improvement in processing speed
US07/598,989 US5230036A (en) 1989-10-17 1990-10-17 Speech coding system utilizing a recursive computation technique for improvement in processing speed
DE69032551T DE69032551T2 (en) 1989-10-17 1990-10-17 Speech coding device
EP90311396A EP0424121B1 (en) 1989-10-17 1990-10-17 Speech coding system
US08/504,227 USRE36646E (en) 1989-10-17 1995-07-19 Speech coding system utilizing a recursive computation technique for improvement in processing speed

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01268050A JP3112462B2 (en) 1989-10-17 1989-10-17 Audio coding device

Publications (2)

Publication Number Publication Date
JPH03130800A true JPH03130800A (en) 1991-06-04
JP3112462B2 JP3112462B2 (en) 2000-11-27

Family

ID=17453189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01268050A Expired - Lifetime JP3112462B2 (en) 1989-10-17 1989-10-17 Audio coding device

Country Status (1)

Country Link
JP (1) JP3112462B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002526798A (en) * 1998-09-30 2002-08-20 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Encoding and decoding of multi-channel signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002526798A (en) * 1998-09-30 2002-08-20 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Encoding and decoding of multi-channel signals
JP4743963B2 (en) * 1998-09-30 2011-08-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Multi-channel signal encoding and decoding

Also Published As

Publication number Publication date
JP3112462B2 (en) 2000-11-27

Similar Documents

Publication Publication Date Title
KR0127901B1 (en) Apparatus and method for encoding speech
Giacobello et al. Sparse linear prediction and its applications to speech processing
JP2776050B2 (en) Audio coding method
JPH06506070A (en) Speech coder and method with spectral interpolation and fast codebook search
EP1116223A1 (en) Multi-channel signal encoding and decoding
JPH04270398A (en) Voice encoding system
CN1074846C (en) Method for generating a spectral noise weighting filter for use in a speech coder
JPH0944195A (en) Voice encoding device
Robinson Speech analysis
JPH03130800A (en) Voice encoding system
CN100487790C (en) Method and device for selecting self-adapting codebook excitation signal
JPH08328597A (en) Sound encoding device
NO862602L (en) VOCODES BUILT INTO DIGITAL SIGNAL PROCESSING DEVICES.
JP3749838B2 (en) Acoustic signal encoding method, acoustic signal decoding method, these devices, these programs, and recording medium thereof
JPH0258100A (en) Voice encoding and decoding method, voice encoder, and voice decoder
Liu et al. LPCSE: Neural Speech Enhancement through Linear Predictive Coding
Backstrom et al. A time-domain interpretation for the LSP decomposition
JPH1195799A (en) Voice coding device and pitch predicting method in voice coding
JP3002299B2 (en) Audio coding device
JPH0511799A (en) Voice coding system
JPH08320700A (en) Sound coding device
JP3192051B2 (en) Audio coding device
Cuperman et al. Low-delay vector excitation coding of speech at 16 kb/s
EP0119033B1 (en) Speech encoder
JPH03189700A (en) Vector quantizing system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070922

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080922

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080922

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 10