JPH0211920B2 - - Google Patents

Info

Publication number
JPH0211920B2
JPH0211920B2 JP54155981A JP15598179A JPH0211920B2 JP H0211920 B2 JPH0211920 B2 JP H0211920B2 JP 54155981 A JP54155981 A JP 54155981A JP 15598179 A JP15598179 A JP 15598179A JP H0211920 B2 JPH0211920 B2 JP H0211920B2
Authority
JP
Japan
Prior art keywords
parameter
spectral
parameters
frame
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54155981A
Other languages
Japanese (ja)
Other versions
JPS5678898A (en
Inventor
Yasuhiko Arai
Masahisa Furuya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Mobile Communications Co Ltd
Original Assignee
Matsushita Communication Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Communication Industrial Co Ltd filed Critical Matsushita Communication Industrial Co Ltd
Priority to JP15598179A priority Critical patent/JPS5678898A/en
Publication of JPS5678898A publication Critical patent/JPS5678898A/en
Publication of JPH0211920B2 publication Critical patent/JPH0211920B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は音声分析合成方式におけるパラメータ
情報の圧縮方法に関するものである。 分析合成方式とは離散的音声信号に一定長の窓
関数、たとえば30ms長のハミング窓等を掛けて
切り出した有限個のデータから音声のスペクトル
情報を表現するパラメータ(スペクトルパラメー
タ)と音源情報を表現するパラメータ(音源パラ
メータ)とを分離して抽出し、抽出したパラメー
タを用いて元の音声信号を復元するものである。
このとき、分析窓を一定時間長づつ移動させなが
ら、それぞれのパラメータを抽出する。たとえば
分析窓移動時間長は通常5ms、10ms、あるいは
20msの固定値が使用されている。 このようにして抽出したパラメータを符号化し
て伝送、または記憶しておき、受信側または記憶
装置から読み出した後に復号化し、復号化したパ
ラメータを用いて元の音声が合成される。 音声のスペクトル情報を表わすパラメータとし
て8〜10個の線形予測係数、あるいは偏自己相関
係数(PARCOR係数とも呼ばれる)などがある。
線形予測係数では、符号化する際にパラメータ当
り10ビツト前後の情報量が必要となるが、
PARCOR係数では、次数に応じて10〜3ビツト
の情報量で良く、従つて線形予測係数使うよりも
少ない情報量で元の音声が復元できる利点があ
る。 本発明はこのような分析合成方式において、さ
らにパラメータ情報を圧縮する方法を提供し、効
率の良い分析合成方式を実現しようとするもので
ある。以下PARCOR係数を用いた実施例ととも
に説明する。 PARCOR係数ki(i=1、2、3…、10)は|
ki<1の範囲の値であるが、これを符号化するた
めに量子化が必要である。量子化によつて生ずる
スペクトル歪はkiの次数によつて異なり、K1の量
子化誤差が最も大きくスペクトル歪に影響する。
次数が増すにつれて影響力は減少して行く。Ki
変動がスペクトルにおよぼす影響はスペクトル感
度で表わされる。スペクトル感度s(k) iiは次式で定
義されるものである。 s(k) ii= lim ΔKi→o|Δs/ΔKi| ……(1) ここで、Δsはスペクトルの変化分、ΔKi
PARCOR係数Kiの変化分である。スペクトル感
度の高いPARCOR係数は量子化の際に多くのビ
ツトを要し、感度の低い係数は少ないビツト数で
良い。 日本音響学会講演論文集、3−2−21、昭和53
年5月、「LPCパラメータのスペクトル感度解
析」(文献1)によれば、KiをNiビツトに線形量
子化する場合、パラメータ当りの量子化歪をσdB
(dBスケール表示)とすると、 Ni=log2(k) ii−log2(0.282σdB) ……(2) となることが示されている。このことから、各パ
ラメータ(k1、k2、……、k10)の量子化誤差に
よるスペクトル歪が、等しくσdBとなるようにNi
(i=1、2、……、10)を決定すれば、どのパ
ラメータについても、1LSBの変化がスペクトル
歪に及ぼす影響はほぼ同一であるとみなせる。 本発明はこのようなスペクトルパラメータの性
質を利用してパラメータ情報を削減するものであ
る。今、各パラメータをNiビツトに量子化した
値(2の補数表示)をQiとし、分析フレームごと
にパラメータベクトルPを次式(3)によつて定義す
る。 P=(Q1、Q2、Q3、……、QP) ……(3) さらに、隣接する2フレームのベクトル間距離
Dを次式で定義する。 D=|PL−PR|=pi=1 |QiL−QiR| ……(4) ただし、pはパラメータ次数、Lは左側のフレ
ーム、Rは右側のフレームを表わす。本発明では
このDを尺度として、Dがある一定値以下のとき
だけパラメータベクトルPRをPLで置き換えるよ
うにしてパラメータ情報を圧縮する。 図はパラメータベクトルの置き換え操作説明図
である。1、2、3、……はフレーム番号、上段
のPi(i=1、2、3、……)は音声信号を分析
して抽出したスペクトルパラメータベクトルであ
る。中段はDの算出例を示したもので、2進数を
10進数に変換して表示してある。下段はDが20以
下の場合にパラメータベクトルを前のフレームの
パラメータベクトルに置き換えた場合を示してい
る。第1フレームではP1をそのまま使い、第2
フレームではDが4であるからP2をP1に置き換
える。第3フレームでは、置き換え後の第2フレ
ームのベクトルP1との距離Dが12であるから、
P3をP1に置き換える。同様にして第4フレーム
のDを算出すると、これが20以上となるから、
P4をそのまま使用する。第5フレームではDが
10となるからP5をP4に置き換える。第6フレー
ムではDが26となり、20を越えるからP6をその
まま使う。 このようにして、図下段のベクトル系列に置き
換えが完了すれば、6フレーム分のパラメータ情
報が3フレーム分のパラメータ情報で表現でき情
報が大巾に削減される。 電子通信学会論文誌、78/2、Vol.61−A、No.
2「PARCOR形受声分析合成系における最適符号
構成」(文献2)によれば、スペクトルパラメー
タkiのうちの1つだけをNiビツトに量子化したと
きの量子化歪DS(p) Qi(Ni)とkiをそれぞれNiビツト
に量子化したときの総量子化歪DS(p) Q(N)との間
に、実験式(5)が成立することが示されている。 DS(p) Q(N)=pi=1 DS(p) Qi(Ni)、(dB)2 ……(5) ここで、 N=pi=1 Ni、(ビツト) ……(6) であり、pはパラメータ次数で、実施例ではp=
10としている。本発明では、(5)式におけるDS(p) Qi
(Ni)をiの値にかかわらず一定値(σdB2に定め
ているから、 DS(p) Q(N)=pi=1 (σdB2=p(σdB2 ……(7) となる。 一方、(2)式で定まるNiを用いれば、(3)式にお
けるQi(i=1、2、……、10)の変化分がスペ
クトル歪に及ぼす影響は全て等価とみなせること
から、パラメータスペクトルPRをPLで置き換え
た合に生じる歪〔D=(σdB2〕を量子化歪に加え
て、スペクトル歪の総量√を求めると、 √=√()+(dB2 =√(+)・σdB、(dB) ……(8) と表わされる。(4)式で定義したベクトル間距離D
は(8)式によつてスペクトル歪を間接的に表現する
尺度であることがわかる。 すなわち、Dの値をある値に選択すれば、PR
をPLに置き換えることによつて生じるスペクト
ル歪を一定値以下とすることができる。 分析窓長30ms、フレーム周期10ms、p=10と
して行つたシミユレーシヨン実験によると、σdB
=1dBとして求めた{Ni10 i=1は、 {Ni10 i=1={7、6、5、4、4
、4、3、3、3、3}……(9) であり、D=0、10、20、30として、パラメータ
ベクトルPの置き換え操作を行つた結果は第1表
のようである。 実験によると、無声フレームに対して、置き換
え操作を行うと、音韻性の劣化が著しいが、連続
する有声フレームに対しては良好な結果が得られ
た。次表は後者の場合をまとめたものである。
The present invention relates to a method for compressing parameter information in a speech analysis and synthesis method. What is the analysis and synthesis method? Parameters (spectral parameters) that express the spectrum information of the voice and sound source information are expressed from a finite number of data extracted by multiplying the discrete voice signal by a window function of a certain length, such as a 30ms long Hamming window. This method separates and extracts the parameters (sound source parameters) that are used in the audio signal, and then uses the extracted parameters to restore the original audio signal.
At this time, each parameter is extracted while moving the analysis window by a certain length of time. For example, the analysis window movement time length is typically 5ms, 10ms, or
A fixed value of 20ms is used. The parameters extracted in this way are encoded and transmitted or stored, read out from the receiving side or a storage device, decoded, and the original voice is synthesized using the decoded parameters. There are 8 to 10 linear prediction coefficients, partial autocorrelation coefficients (also called PARCOR coefficients), etc. as parameters representing the spectral information of speech.
Linear prediction coefficients require around 10 bits of information per parameter when encoding.
PARCOR coefficients require only 10 to 3 bits of information depending on the order, and therefore have the advantage that the original speech can be restored with less information than using linear prediction coefficients. The present invention provides a method for further compressing parameter information in such an analysis and synthesis method, and aims to realize an efficient analysis and synthesis method. This will be explained below along with an example using the PARCOR coefficient. The PARCOR coefficient k i (i=1, 2, 3..., 10) is |
values in the range k i <1, but quantization is required to encode them. The spectral distortion caused by quantization varies depending on the order of k i , and the quantization error of K 1 has the largest effect on the spectral distortion.
As the order increases, the influence decreases. The effect that fluctuations in K i have on the spectrum is expressed as spectral sensitivity. The spectral sensitivity s (k) ii is defined by the following equation. s (k) ii = lim ΔKi→o | Δs / ΔK i | ...(1) Here, Δs is the change in spectrum, and ΔK i is
This is the change in the PARCOR coefficient K i . PARCOR coefficients with high spectral sensitivity require many bits for quantization, while coefficients with low sensitivity require fewer bits. Proceedings of the Acoustical Society of Japan, 3-2-21, 1972
According to "Spectral Sensitivity Analysis of LPC Parameters" (Reference 1) published in May, when K i is linearly quantized to N i bits, the quantization distortion per parameter is σ dB.
(dB scale display), it is shown that N i =log 2(k) ii −log 2 (0.282σ dB ) ...(2). From this , N i
If (i=1, 2, . . . , 10) is determined, it can be considered that the influence of a change of 1 LSB on the spectral distortion is almost the same for any parameter. The present invention utilizes such properties of spectral parameters to reduce parameter information. Now, a value obtained by quantizing each parameter into N i bits (in two's complement representation) is set as Q i , and a parameter vector P is defined for each analysis frame by the following equation (3). P=(Q 1 , Q 2 , Q 3 , . . . , Q P ) (3) Furthermore, the distance D between vectors of two adjacent frames is defined by the following equation. D=| PL −P R |= pi=1 |Q iL −Q iR | (4) where p is the parameter order, L is the left frame, and R is the right frame. In the present invention, parameter information is compressed by using D as a measure and replacing parameter vector PR with P L only when D is less than a certain value. The figure is an explanatory diagram of parameter vector replacement operation. 1, 2, 3, . . . are frame numbers, and P i (i=1, 2, 3, . . .) in the upper row is a spectral parameter vector extracted by analyzing the audio signal. The middle row shows an example of calculating D, and the binary number is
It is converted to decimal and displayed. The lower row shows the case where the parameter vector is replaced with the parameter vector of the previous frame when D is 20 or less. In the first frame, use P 1 as is, and in the second frame
Since D is 4 in the frame, P 2 is replaced with P 1 . In the third frame, the distance D from the vector P 1 of the second frame after replacement is 12, so
Replace P 3 with P 1 . If we calculate D for the fourth frame in the same way, it will be 20 or more, so
Use P 4 as is. In the fifth frame, D
Since it becomes 10, replace P 5 with P 4 . In the 6th frame, D becomes 26 and exceeds 20, so P 6 is used as is. In this way, when the replacement with the vector sequence shown in the lower part of the figure is completed, the parameter information for 6 frames can be expressed by the parameter information for 3 frames, and the amount of information can be greatly reduced. Journal of the Institute of Electronics and Communication Engineers, 78/2, Vol.61-A, No.
2. According to ``Optimal Code Configuration in PARCOR-type Voice Analysis and Synthesis System'' (Reference 2), when only one of the spectral parameters k i is quantized to N i bits, the quantization distortion DS (p) Qi It has been shown that the empirical formula (5) holds between (N i ) and the total quantization distortion DS (p) Q (N) when each of k i is quantized to N i bits. DS (p) Q (N)= pi=1 DS (p) Qi (N i ), (dB) 2 ...(5) Here, N= pi=1 N i , (bit) ... ...(6), p is the parameter order, and in the example p=
It is set at 10. In the present invention, DS (p) Qi in equation (5)
Since (N i ) is set to a constant value (σ dB ) 2 regardless of the value of i, DS (p) Q (N) = pi=1dB ) 2 = p(σ dB ) 2 ...(7) becomes. On the other hand, if N i determined by equation (2) is used, the effects of changes in Q i (i = 1, 2, ..., 10) in equation (3) on spectral distortion can be considered to be equivalent, so Adding the distortion [D=(σ dB ) 2 ] that occurs when the parameter spectrum PR is replaced by PL to the quantization distortion to find the total amount of spectral distortion √, we get √=√()+( dB ) 2 =√(+)・σ dB , (dB)...(8) Distance between vectors D defined by formula (4)
It can be seen that is a measure that indirectly expresses spectral distortion using equation (8). That is, if the value of D is selected to a certain value, P R
By replacing PL with PL , the spectral distortion caused can be kept below a certain value. According to a simulation experiment conducted with an analysis window length of 30 ms, a frame period of 10 ms, and p = 10, σ dB
{N i } 10 i=1 calculated as = 1 dB is {N i } 10 i=1 = {7, 6, 5, 4, 4
, 4, 3, 3, 3, 3}...(9), and the results of replacing the parameter vector P with D=0, 10, 20, 30 are as shown in Table 1. Experiments have shown that when a replacement operation is performed on an unvoiced frame, the phonology deteriorates significantly, but good results are obtained for consecutive voiced frames. The following table summarizes the latter case.

【表】 D=30の場合は聴感的にも品質劣化が目立つ
が、D=20まではD=0の場合とほとんど遜色な
い。D=20ときD=0に対して33%の情報が削減
され、極めて効率の良い、分析合成が実現される
ことがわかる。 以上の説明から明らかなように、本発明では、
パラメータベクトル間の距離を求める前の段階
で、スペクトルパラメータ当りのスペクトル歪が
等しくなるように各スペクトルパラメータを量子
化しているため、各パラメータスペクトル間距離
の演算結果が同じ重みを持つことになり、スペク
トル歪に与える影響が等しくなり、このスペクト
ル歪を間接的に表現するベクトル間距離を評価尺
度として用いてスペクトル歪が一定値を越えない
範囲で、スペクトルパラメータを1フレーム前の
値に置き換えるようにして情報を削減しているた
め、極めて効率的な分析合成が実現できる効果が
ある。またこのようにして情報圧縮をしたパラメ
ータを記憶装置に格納しておく音声合成装置に利
用すれば、メモリコストが大巾に削減でき、極め
て経済的な装置が実現できる効果がある。
[Table] When D=30, the deterioration in quality is noticeable audibly, but up to D=20, it is almost as good as when D=0. It can be seen that when D=20, information is reduced by 33% compared to D=0, and extremely efficient analysis and synthesis can be achieved. As is clear from the above description, in the present invention,
Before calculating the distance between parameter vectors, each spectral parameter is quantized so that the spectral distortion per spectral parameter is equal, so the calculation result of the distance between each parameter spectrum has the same weight. Spectral parameters are replaced with values from one frame before, as long as the influence on spectral distortion is equal and spectral distortion does not exceed a certain value using the distance between vectors that indirectly expresses this spectral distortion as an evaluation measure. Since the amount of information is reduced by using the method, it has the effect of realizing extremely efficient analysis and synthesis. Furthermore, if parameters compressed in this way are used in a speech synthesis device that stores them in a storage device, the memory cost can be greatly reduced and an extremely economical device can be realized.

【図面の簡単な説明】[Brief explanation of drawings]

図面は本発明によるパラメータ情報圧縮方法を
用いたパラメータベクトルの置き換え操作を説明
する図面である。
The drawing is a diagram illustrating a parameter vector replacement operation using the parameter information compression method according to the present invention.

Claims (1)

【特許請求の範囲】[Claims] 1 音声のスペクトルパラメータ当りのスペクト
ル歪が等しくなるように、各スペクトルパラメー
タを量子化した後、隣接する2フレームのパラメ
ータスペクトル間の距離を求め、このパラメータ
ベクトル間の距離が一定値以下のとき、後フレー
ムのパラメータを前フレームのパラメータに置き
換えることを特徴とするパラメータ情報圧縮方
法。
1 After quantizing each spectral parameter so that the spectral distortion per audio spectral parameter is equal, find the distance between the parameter spectra of two adjacent frames, and when the distance between the parameter vectors is less than a certain value, A parameter information compression method characterized by replacing parameters of a subsequent frame with parameters of a previous frame.
JP15598179A 1979-11-30 1979-11-30 Parameterrinformation compacting method Granted JPS5678898A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15598179A JPS5678898A (en) 1979-11-30 1979-11-30 Parameterrinformation compacting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15598179A JPS5678898A (en) 1979-11-30 1979-11-30 Parameterrinformation compacting method

Publications (2)

Publication Number Publication Date
JPS5678898A JPS5678898A (en) 1981-06-29
JPH0211920B2 true JPH0211920B2 (en) 1990-03-16

Family

ID=15617739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15598179A Granted JPS5678898A (en) 1979-11-30 1979-11-30 Parameterrinformation compacting method

Country Status (1)

Country Link
JP (1) JPS5678898A (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4625286A (en) * 1982-05-03 1986-11-25 Texas Instruments Incorporated Time encoding of LPC roots
JP3469567B2 (en) 2001-09-03 2003-11-25 三菱電機株式会社 Acoustic encoding device, acoustic decoding device, acoustic encoding method, and acoustic decoding method
WO2003042648A1 (en) * 2001-11-16 2003-05-22 Matsushita Electric Industrial Co., Ltd. Speech encoder, speech decoder, speech encoding method, and speech decoding method
BR112021012753A2 (en) 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. COMPUTER-IMPLEMENTED METHOD FOR AUDIO, ELECTRONIC DEVICE AND COMPUTER-READable MEDIUM NON-TRANSITORY CODING

Also Published As

Publication number Publication date
JPS5678898A (en) 1981-06-29

Similar Documents

Publication Publication Date Title
JP3680380B2 (en) Speech coding method and apparatus
EP1353323B1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
CA2202825C (en) Speech coder
JP3196595B2 (en) Audio coding device
JPH09127989A (en) Voice coding method and voice coding device
JP3254687B2 (en) Audio coding method
JPH09127991A (en) Voice coding method, device therefor, voice decoding method, and device therefor
JP2626223B2 (en) Audio coding device
US6593872B2 (en) Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method
US20130218578A1 (en) System and Method for Mixed Codebook Excitation for Speech Coding
JP2800618B2 (en) Voice parameter coding method
US5526464A (en) Reducing search complexity for code-excited linear prediction (CELP) coding
JP2645465B2 (en) Low delay low bit rate speech coder
JPH0944195A (en) Voice encoding device
JPH05232997A (en) Voice coding device
KR100480341B1 (en) Apparatus for coding wide-band low bit rate speech signal
JPH0211920B2 (en)
JPH0854898A (en) Voice coding device
US20070219789A1 (en) Method For Quantifying An Ultra Low-Rate Speech Coder
JP3153075B2 (en) Audio coding device
KR100341398B1 (en) Codebook searching method for CELP type vocoder
JP3047761B2 (en) Audio coding device
JP3192051B2 (en) Audio coding device
JP2808841B2 (en) Audio coding method
JP2805749B2 (en) Audio coding method