JPH0211920B2 - - Google Patents
Info
- Publication number
- JPH0211920B2 JPH0211920B2 JP54155981A JP15598179A JPH0211920B2 JP H0211920 B2 JPH0211920 B2 JP H0211920B2 JP 54155981 A JP54155981 A JP 54155981A JP 15598179 A JP15598179 A JP 15598179A JP H0211920 B2 JPH0211920 B2 JP H0211920B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- spectral
- parameters
- frame
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000003595 spectral effect Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 11
- 238000013139 quantization Methods 0.000 description 8
- 239000008186 active pharmaceutical agent Substances 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010206 sensitivity analysis Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Description
本発明は音声分析合成方式におけるパラメータ
情報の圧縮方法に関するものである。
分析合成方式とは離散的音声信号に一定長の窓
関数、たとえば30ms長のハミング窓等を掛けて
切り出した有限個のデータから音声のスペクトル
情報を表現するパラメータ(スペクトルパラメー
タ)と音源情報を表現するパラメータ(音源パラ
メータ)とを分離して抽出し、抽出したパラメー
タを用いて元の音声信号を復元するものである。
このとき、分析窓を一定時間長づつ移動させなが
ら、それぞれのパラメータを抽出する。たとえば
分析窓移動時間長は通常5ms、10ms、あるいは
20msの固定値が使用されている。
このようにして抽出したパラメータを符号化し
て伝送、または記憶しておき、受信側または記憶
装置から読み出した後に復号化し、復号化したパ
ラメータを用いて元の音声が合成される。
音声のスペクトル情報を表わすパラメータとし
て8〜10個の線形予測係数、あるいは偏自己相関
係数(PARCOR係数とも呼ばれる)などがある。
線形予測係数では、符号化する際にパラメータ当
り10ビツト前後の情報量が必要となるが、
PARCOR係数では、次数に応じて10〜3ビツト
の情報量で良く、従つて線形予測係数使うよりも
少ない情報量で元の音声が復元できる利点があ
る。
本発明はこのような分析合成方式において、さ
らにパラメータ情報を圧縮する方法を提供し、効
率の良い分析合成方式を実現しようとするもので
ある。以下PARCOR係数を用いた実施例ととも
に説明する。
PARCOR係数ki(i=1、2、3…、10)は|
ki<1の範囲の値であるが、これを符号化するた
めに量子化が必要である。量子化によつて生ずる
スペクトル歪はkiの次数によつて異なり、K1の量
子化誤差が最も大きくスペクトル歪に影響する。
次数が増すにつれて影響力は減少して行く。Kiの
変動がスペクトルにおよぼす影響はスペクトル感
度で表わされる。スペクトル感度s(k) iiは次式で定
義されるものである。
s(k) ii=
lim
ΔKi→o|Δs/ΔKi| ……(1)
ここで、Δsはスペクトルの変化分、ΔKiは
PARCOR係数Kiの変化分である。スペクトル感
度の高いPARCOR係数は量子化の際に多くのビ
ツトを要し、感度の低い係数は少ないビツト数で
良い。
日本音響学会講演論文集、3−2−21、昭和53
年5月、「LPCパラメータのスペクトル感度解
析」(文献1)によれば、KiをNiビツトに線形量
子化する場合、パラメータ当りの量子化歪をσdB
(dBスケール表示)とすると、
Ni=log2√(k) ii−log2(0.282σdB) ……(2)
となることが示されている。このことから、各パ
ラメータ(k1、k2、……、k10)の量子化誤差に
よるスペクトル歪が、等しくσdBとなるようにNi
(i=1、2、……、10)を決定すれば、どのパ
ラメータについても、1LSBの変化がスペクトル
歪に及ぼす影響はほぼ同一であるとみなせる。
本発明はこのようなスペクトルパラメータの性
質を利用してパラメータ情報を削減するものであ
る。今、各パラメータをNiビツトに量子化した
値(2の補数表示)をQiとし、分析フレームごと
にパラメータベクトルPを次式(3)によつて定義す
る。
P=(Q1、Q2、Q3、……、QP) ……(3)
さらに、隣接する2フレームのベクトル間距離
Dを次式で定義する。
D=|PL−PR|=p
〓i=1
|QiL−QiR| ……(4)
ただし、pはパラメータ次数、Lは左側のフレ
ーム、Rは右側のフレームを表わす。本発明では
このDを尺度として、Dがある一定値以下のとき
だけパラメータベクトルPRをPLで置き換えるよ
うにしてパラメータ情報を圧縮する。
図はパラメータベクトルの置き換え操作説明図
である。1、2、3、……はフレーム番号、上段
のPi(i=1、2、3、……)は音声信号を分析
して抽出したスペクトルパラメータベクトルであ
る。中段はDの算出例を示したもので、2進数を
10進数に変換して表示してある。下段はDが20以
下の場合にパラメータベクトルを前のフレームの
パラメータベクトルに置き換えた場合を示してい
る。第1フレームではP1をそのまま使い、第2
フレームではDが4であるからP2をP1に置き換
える。第3フレームでは、置き換え後の第2フレ
ームのベクトルP1との距離Dが12であるから、
P3をP1に置き換える。同様にして第4フレーム
のDを算出すると、これが20以上となるから、
P4をそのまま使用する。第5フレームではDが
10となるからP5をP4に置き換える。第6フレー
ムではDが26となり、20を越えるからP6をその
まま使う。
このようにして、図下段のベクトル系列に置き
換えが完了すれば、6フレーム分のパラメータ情
報が3フレーム分のパラメータ情報で表現でき情
報が大巾に削減される。
電子通信学会論文誌、78/2、Vol.61−A、No.
2「PARCOR形受声分析合成系における最適符号
構成」(文献2)によれば、スペクトルパラメー
タkiのうちの1つだけをNiビツトに量子化したと
きの量子化歪DS(p) Qi(Ni)とkiをそれぞれNiビツト
に量子化したときの総量子化歪DS(p) Q(N)との間
に、実験式(5)が成立することが示されている。
DS(p) Q(N)=p
〓i=1
DS(p) Qi(Ni)、(dB)2
……(5)
ここで、
N=p
〓i=1
Ni、(ビツト) ……(6)
であり、pはパラメータ次数で、実施例ではp=
10としている。本発明では、(5)式におけるDS(p) Qi
(Ni)をiの値にかかわらず一定値(σdB)2に定め
ているから、
DS(p) Q(N)=p
〓i=1
(σdB)2=p(σdB)2 ……(7)
となる。
一方、(2)式で定まるNiを用いれば、(3)式にお
けるQi(i=1、2、……、10)の変化分がスペ
クトル歪に及ぼす影響は全て等価とみなせること
から、パラメータスペクトルPRをPLで置き換え
た合に生じる歪〔D=(σdB)2〕を量子化歪に加え
て、スペクトル歪の総量√を求めると、
√=√()+(dB)2
=√(+)・σdB、(dB) ……(8)
と表わされる。(4)式で定義したベクトル間距離D
は(8)式によつてスペクトル歪を間接的に表現する
尺度であることがわかる。
すなわち、Dの値をある値に選択すれば、PR
をPLに置き換えることによつて生じるスペクト
ル歪を一定値以下とすることができる。
分析窓長30ms、フレーム周期10ms、p=10と
して行つたシミユレーシヨン実験によると、σdB
=1dBとして求めた{Ni}10 i=1は、
{Ni}10 i=1={7、6、5、4、4
、4、3、3、3、3}……(9)
であり、D=0、10、20、30として、パラメータ
ベクトルPの置き換え操作を行つた結果は第1表
のようである。
実験によると、無声フレームに対して、置き換
え操作を行うと、音韻性の劣化が著しいが、連続
する有声フレームに対しては良好な結果が得られ
た。次表は後者の場合をまとめたものである。
The present invention relates to a method for compressing parameter information in a speech analysis and synthesis method. What is the analysis and synthesis method? Parameters (spectral parameters) that express the spectrum information of the voice and sound source information are expressed from a finite number of data extracted by multiplying the discrete voice signal by a window function of a certain length, such as a 30ms long Hamming window. This method separates and extracts the parameters (sound source parameters) that are used in the audio signal, and then uses the extracted parameters to restore the original audio signal.
At this time, each parameter is extracted while moving the analysis window by a certain length of time. For example, the analysis window movement time length is typically 5ms, 10ms, or
A fixed value of 20ms is used. The parameters extracted in this way are encoded and transmitted or stored, read out from the receiving side or a storage device, decoded, and the original voice is synthesized using the decoded parameters. There are 8 to 10 linear prediction coefficients, partial autocorrelation coefficients (also called PARCOR coefficients), etc. as parameters representing the spectral information of speech.
Linear prediction coefficients require around 10 bits of information per parameter when encoding.
PARCOR coefficients require only 10 to 3 bits of information depending on the order, and therefore have the advantage that the original speech can be restored with less information than using linear prediction coefficients. The present invention provides a method for further compressing parameter information in such an analysis and synthesis method, and aims to realize an efficient analysis and synthesis method. This will be explained below along with an example using the PARCOR coefficient. The PARCOR coefficient k i (i=1, 2, 3..., 10) is |
values in the range k i <1, but quantization is required to encode them. The spectral distortion caused by quantization varies depending on the order of k i , and the quantization error of K 1 has the largest effect on the spectral distortion.
As the order increases, the influence decreases. The effect that fluctuations in K i have on the spectrum is expressed as spectral sensitivity. The spectral sensitivity s (k) ii is defined by the following equation. s (k) ii = lim ΔKi→o | Δs / ΔK i | ...(1) Here, Δs is the change in spectrum, and ΔK i is
This is the change in the PARCOR coefficient K i . PARCOR coefficients with high spectral sensitivity require many bits for quantization, while coefficients with low sensitivity require fewer bits. Proceedings of the Acoustical Society of Japan, 3-2-21, 1972
According to "Spectral Sensitivity Analysis of LPC Parameters" (Reference 1) published in May, when K i is linearly quantized to N i bits, the quantization distortion per parameter is σ dB.
(dB scale display), it is shown that N i =log 2 √ (k) ii −log 2 (0.282σ dB ) ...(2). From this , N i
If (i=1, 2, . . . , 10) is determined, it can be considered that the influence of a change of 1 LSB on the spectral distortion is almost the same for any parameter. The present invention utilizes such properties of spectral parameters to reduce parameter information. Now, a value obtained by quantizing each parameter into N i bits (in two's complement representation) is set as Q i , and a parameter vector P is defined for each analysis frame by the following equation (3). P=(Q 1 , Q 2 , Q 3 , . . . , Q P ) (3) Furthermore, the distance D between vectors of two adjacent frames is defined by the following equation. D=| PL −P R |= p 〓 i=1 |Q iL −Q iR | (4) where p is the parameter order, L is the left frame, and R is the right frame. In the present invention, parameter information is compressed by using D as a measure and replacing parameter vector PR with P L only when D is less than a certain value. The figure is an explanatory diagram of parameter vector replacement operation. 1, 2, 3, . . . are frame numbers, and P i (i=1, 2, 3, . . .) in the upper row is a spectral parameter vector extracted by analyzing the audio signal. The middle row shows an example of calculating D, and the binary number is
It is converted to decimal and displayed. The lower row shows the case where the parameter vector is replaced with the parameter vector of the previous frame when D is 20 or less. In the first frame, use P 1 as is, and in the second frame
Since D is 4 in the frame, P 2 is replaced with P 1 . In the third frame, the distance D from the vector P 1 of the second frame after replacement is 12, so
Replace P 3 with P 1 . If we calculate D for the fourth frame in the same way, it will be 20 or more, so
Use P 4 as is. In the fifth frame, D
Since it becomes 10, replace P 5 with P 4 . In the 6th frame, D becomes 26 and exceeds 20, so P 6 is used as is. In this way, when the replacement with the vector sequence shown in the lower part of the figure is completed, the parameter information for 6 frames can be expressed by the parameter information for 3 frames, and the amount of information can be greatly reduced. Journal of the Institute of Electronics and Communication Engineers, 78/2, Vol.61-A, No.
2. According to ``Optimal Code Configuration in PARCOR-type Voice Analysis and Synthesis System'' (Reference 2), when only one of the spectral parameters k i is quantized to N i bits, the quantization distortion DS (p) Qi It has been shown that the empirical formula (5) holds between (N i ) and the total quantization distortion DS (p) Q (N) when each of k i is quantized to N i bits. DS (p) Q (N)= p 〓 i=1 DS (p) Qi (N i ), (dB) 2 ...(5) Here, N= p 〓 i=1 N i , (bit) ... ...(6), p is the parameter order, and in the example p=
It is set at 10. In the present invention, DS (p) Qi in equation (5)
Since (N i ) is set to a constant value (σ dB ) 2 regardless of the value of i, DS (p) Q (N) = p 〓 i=1 (σ dB ) 2 = p(σ dB ) 2 ...(7) becomes. On the other hand, if N i determined by equation (2) is used, the effects of changes in Q i (i = 1, 2, ..., 10) in equation (3) on spectral distortion can be considered to be equivalent, so Adding the distortion [D=(σ dB ) 2 ] that occurs when the parameter spectrum PR is replaced by PL to the quantization distortion to find the total amount of spectral distortion √, we get √=√()+( dB ) 2 =√(+)・σ dB , (dB)...(8) Distance between vectors D defined by formula (4)
It can be seen that is a measure that indirectly expresses spectral distortion using equation (8). That is, if the value of D is selected to a certain value, P R
By replacing PL with PL , the spectral distortion caused can be kept below a certain value. According to a simulation experiment conducted with an analysis window length of 30 ms, a frame period of 10 ms, and p = 10, σ dB
{N i } 10 i=1 calculated as = 1 dB is {N i } 10 i=1 = {7, 6, 5, 4, 4
, 4, 3, 3, 3, 3}...(9), and the results of replacing the parameter vector P with D=0, 10, 20, 30 are as shown in Table 1. Experiments have shown that when a replacement operation is performed on an unvoiced frame, the phonology deteriorates significantly, but good results are obtained for consecutive voiced frames. The following table summarizes the latter case.
【表】
D=30の場合は聴感的にも品質劣化が目立つ
が、D=20まではD=0の場合とほとんど遜色な
い。D=20ときD=0に対して33%の情報が削減
され、極めて効率の良い、分析合成が実現される
ことがわかる。
以上の説明から明らかなように、本発明では、
パラメータベクトル間の距離を求める前の段階
で、スペクトルパラメータ当りのスペクトル歪が
等しくなるように各スペクトルパラメータを量子
化しているため、各パラメータスペクトル間距離
の演算結果が同じ重みを持つことになり、スペク
トル歪に与える影響が等しくなり、このスペクト
ル歪を間接的に表現するベクトル間距離を評価尺
度として用いてスペクトル歪が一定値を越えない
範囲で、スペクトルパラメータを1フレーム前の
値に置き換えるようにして情報を削減しているた
め、極めて効率的な分析合成が実現できる効果が
ある。またこのようにして情報圧縮をしたパラメ
ータを記憶装置に格納しておく音声合成装置に利
用すれば、メモリコストが大巾に削減でき、極め
て経済的な装置が実現できる効果がある。[Table] When D=30, the deterioration in quality is noticeable audibly, but up to D=20, it is almost as good as when D=0. It can be seen that when D=20, information is reduced by 33% compared to D=0, and extremely efficient analysis and synthesis can be achieved. As is clear from the above description, in the present invention,
Before calculating the distance between parameter vectors, each spectral parameter is quantized so that the spectral distortion per spectral parameter is equal, so the calculation result of the distance between each parameter spectrum has the same weight. Spectral parameters are replaced with values from one frame before, as long as the influence on spectral distortion is equal and spectral distortion does not exceed a certain value using the distance between vectors that indirectly expresses this spectral distortion as an evaluation measure. Since the amount of information is reduced by using the method, it has the effect of realizing extremely efficient analysis and synthesis. Furthermore, if parameters compressed in this way are used in a speech synthesis device that stores them in a storage device, the memory cost can be greatly reduced and an extremely economical device can be realized.
図面は本発明によるパラメータ情報圧縮方法を
用いたパラメータベクトルの置き換え操作を説明
する図面である。
The drawing is a diagram illustrating a parameter vector replacement operation using the parameter information compression method according to the present invention.
Claims (1)
ル歪が等しくなるように、各スペクトルパラメー
タを量子化した後、隣接する2フレームのパラメ
ータスペクトル間の距離を求め、このパラメータ
ベクトル間の距離が一定値以下のとき、後フレー
ムのパラメータを前フレームのパラメータに置き
換えることを特徴とするパラメータ情報圧縮方
法。1 After quantizing each spectral parameter so that the spectral distortion per audio spectral parameter is equal, find the distance between the parameter spectra of two adjacent frames, and when the distance between the parameter vectors is less than a certain value, A parameter information compression method characterized by replacing parameters of a subsequent frame with parameters of a previous frame.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15598179A JPS5678898A (en) | 1979-11-30 | 1979-11-30 | Parameterrinformation compacting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15598179A JPS5678898A (en) | 1979-11-30 | 1979-11-30 | Parameterrinformation compacting method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5678898A JPS5678898A (en) | 1981-06-29 |
JPH0211920B2 true JPH0211920B2 (en) | 1990-03-16 |
Family
ID=15617739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15598179A Granted JPS5678898A (en) | 1979-11-30 | 1979-11-30 | Parameterrinformation compacting method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5678898A (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4625286A (en) * | 1982-05-03 | 1986-11-25 | Texas Instruments Incorporated | Time encoding of LPC roots |
JP3469567B2 (en) | 2001-09-03 | 2003-11-25 | 三菱電機株式会社 | Acoustic encoding device, acoustic decoding device, acoustic encoding method, and acoustic decoding method |
WO2003042648A1 (en) * | 2001-11-16 | 2003-05-22 | Matsushita Electric Industrial Co., Ltd. | Speech encoder, speech decoder, speech encoding method, and speech decoding method |
BR112021012753A2 (en) | 2019-01-13 | 2021-09-08 | Huawei Technologies Co., Ltd. | COMPUTER-IMPLEMENTED METHOD FOR AUDIO, ELECTRONIC DEVICE AND COMPUTER-READable MEDIUM NON-TRANSITORY CODING |
-
1979
- 1979-11-30 JP JP15598179A patent/JPS5678898A/en active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS5678898A (en) | 1981-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3680380B2 (en) | Speech coding method and apparatus | |
EP1353323B1 (en) | Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound | |
CA2202825C (en) | Speech coder | |
JP3196595B2 (en) | Audio coding device | |
JPH09127989A (en) | Voice coding method and voice coding device | |
JP3254687B2 (en) | Audio coding method | |
JPH09127991A (en) | Voice coding method, device therefor, voice decoding method, and device therefor | |
JP2626223B2 (en) | Audio coding device | |
US6593872B2 (en) | Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method | |
US20130218578A1 (en) | System and Method for Mixed Codebook Excitation for Speech Coding | |
JP2800618B2 (en) | Voice parameter coding method | |
US5526464A (en) | Reducing search complexity for code-excited linear prediction (CELP) coding | |
JP2645465B2 (en) | Low delay low bit rate speech coder | |
JPH0944195A (en) | Voice encoding device | |
JPH05232997A (en) | Voice coding device | |
KR100480341B1 (en) | Apparatus for coding wide-band low bit rate speech signal | |
JPH0211920B2 (en) | ||
JPH0854898A (en) | Voice coding device | |
US20070219789A1 (en) | Method For Quantifying An Ultra Low-Rate Speech Coder | |
JP3153075B2 (en) | Audio coding device | |
KR100341398B1 (en) | Codebook searching method for CELP type vocoder | |
JP3047761B2 (en) | Audio coding device | |
JP3192051B2 (en) | Audio coding device | |
JP2808841B2 (en) | Audio coding method | |
JP2805749B2 (en) | Audio coding method |