FI116597B - In particular, a method for vector quantization of speech signals - Google Patents
In particular, a method for vector quantization of speech signals Download PDFInfo
- Publication number
- FI116597B FI116597B FI955325A FI955325A FI116597B FI 116597 B FI116597 B FI 116597B FI 955325 A FI955325 A FI 955325A FI 955325 A FI955325 A FI 955325A FI 116597 B FI116597 B FI 116597B
- Authority
- FI
- Finland
- Prior art keywords
- codebook
- vectors
- vector
- speech
- excitation
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
- G10L2019/0014—Selection criteria for distances
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
116597116597
Menetelmä etenkin puhesignaalien vektorikvantisointia vartenIn particular, a method for vector quantization of speech signals
Keksintönä on menetelmä signaalien näytteitysarvoj en 5 koodaamiseksi käyttämällä vektorikvantisointia.The invention provides a method for encoding signal sampling values 5 using vector quantization.
Julkaisusta Speech Communication 8 (1989), sivut 363 - 369, tunnetaan CELP-puheenkoodausmenetelmä, jossa koodimuuttujat optimoidaan yhteisesti. Verrattuna peräkkäiseen optimointiin voi herätekoodikirjan pituus lyhentyä 10 huomattavasti.From Speech Communication 8 (1989), pages 363-369, a CELP speech coding method is known in which code variables are jointly optimized. Compared to sequential optimization, the length of the excitation codebook can be significantly reduced by 10.
Julkaisusta W0 91/01 545 tunnetaan digitaalinen pu-hekooderi, jossa haetaan koodikirjaan tallennettuja herä-tevektoreita sellaisen herätevektorin valitsemiseksi, joka parhaiten edustaa alkuperäistä puheen näytteitysarvoa. Jul-15 kaisun W0 91/01 545 mukaisessa puhekooderissa käytetään kahta herätevektoria kulloinkin aina yhdessä kahdesta koodikirjasta jonkin puheen näytteitysarvon selittämiseen. Ensiksi valitaan ensimmäinen herätevektori äänenkorkeustie-dosta riippumatta ja se ortogonalisoidaan. Toinen heräte-20 vektori valitaan vastaavalla tavalla. Toisen herätevektorin ortogonalisoinnissa toisesta koodikirjasta otetaan huomioon • sekä tuloksena oleva vektori että myös valittu ensimmäinen » · t * . , : herätevektori ensimmäisestä koodikirjasta. Tämä valintapro- * · · « · sessi toistetaan sitten toisesta koodikirjasta otetun or- • · J 25 togonalisoidun herätesignaalin kohdalla, jotta lopulta tun- • < · i",* nistetaan ne herätevektorit, jotka parhaiten vastaavat ai- • i · kuperäisen puheen näyttei tysarvoa.WO 91/01545 discloses a digital speech decoder which searches for excitation vectors stored in a codebook to select the excitation vector that best represents the original speech sampling value. The speech encoder of Jul-15 WO 91/01545 uses two excitation vectors each time in one of the two codebooks to explain the sampling value of a speech. First, the first excitation vector, regardless of pitch information, is selected and orthogonalized. The second excitation-20 vector is selected similarly. The orthogonalization of the second excitation vector from the second codebook takes into account both the resulting vector and the selected first »· t *. ,: Excitation vector from the first codebook. This selection process is then repeated for the orthogonal excitation signal taken from the second codebook to finally identify the excitation vectors that best match the sample of the original speech. tysarvoa.
' Keksinnön tehtävänä on parantaa luotettavuutta op timoidun näytteitysarvon valinnassa ilman, että käsittely j.j * 30 monimutkaistuu liiaksi. Tämä tehtävä ratkaistaan patentti- vaatimuksen 1 toimenpiteiden avulla. Vaihtoehtoiset suori-; tusmuodot ilmenevät muista vaatimuksista.It is an object of the invention to improve reliability in the selection of an optimized sampling value without unduly complicating the processing. This task is solved by the measures of claim 1. Alternative direct; other forms are required.
• * t• * t
Keksintö perustuu seuraaville tiedoille: Kun päin- • · vastoin kuin tunnetuissa menetelmissä (Speech Communication :.,V 35 8 (1989), sivut 363 - 369 tai W0 91/01 545) adaptiivisesta { t I t | * t 116597 2 (toisesta) koodikirjasta käytetään useampaa kuin yhtä minimaalisen virheen käsittävää vektoria yhdistettäväksi kaikkien ensimmäisen (kiinteän) koodikirjan vektoreiden kanssa, käsittelyn vaatima työmäärä tosin kasvaa, mutta luotetta-5 vuus pienimmän virheen käsittävän näytteitysarvon optimoinnissa samalla kasvaa. Tämä luotettavuuden paraneminen merkitsee puheen näytteitysarvojen käsittelyssä parempaa puheen laatua. Koska käsittelyyn käytetty työmäärä, kun huomioon otetaan useampi kuin yksi vektori adaptiivisesta koo-10 dikirjasta, kasvaa vähemmän kuin lineaarisesti, saadaan kiinteää koodikirjaa kohtuullisesti pienentämällä esim. koodikirjan ohentamisen (kehyksen ohentamisen) välityksellä hakijan patenttihakemuksen "Verfahren zur Aufbreitung von Daten, insbesondere von codierten Sprachsignalparametern" 15 (sama hakemuspäivämäärä) mukaisesti käsittelyyn käytetty työmäärä pidettyä suunnilleen vakiona, jolloin vertailupohjaksi on asetettu alkuperäinen koodikirjapituus ilman ke-hysohennusta. Käsittelymäärän säilyessä suunnilleen samana kuin perinteisessä menetelmässä voidaan keksinnön mukaisin 20 toimenpitein saavuttaa oleellisesti parempi puheen laatu.The invention is based on the following information: When, in contrast to known methods (Speech Communication:., Vol. 35 8 (1989), pages 363-369 or WO 91/01545), the adaptive {t I t | * t 116597 Of the 2 (second) codebooks, more than one minimal error vector is used to combine with all vectors of the first (fixed) codebook, although the workload required for processing increases, but the confidence in optimizing the smallest error sampling value increases. This improvement in reliability translates into better speech quality when processing speech sampling values. Because the amount of work involved in processing, taking into account more than one vector from the adaptive codebook 10, increases less than linearly, a fixed codebook can be obtained by moderately reducing, e.g., codebook thinning "15 (same filing date), the processing workload was kept approximately constant, with the original codebook length without frame reduction as the reference. With the amount of processing remaining approximately the same as in the conventional method, substantially improved speech quality can be achieved by the measures of the invention.
Keksinnön yhtä suoritusmuotoesimerkkiä tarkastellaan • seuraavassa yksityiskohtaisemmin piirustusten pohjalta.An exemplary embodiment of the invention will now be considered in greater detail on the basis of the drawings.
• 1 1 · : Kuvio 1 kuvaa CELP-kooderin rakennetta.• 1 1 ·: Figure 1 illustrates the structure of a CELP encoder.
• ·• ·
Kuvio 2 kuvaa muunnellun CELP-kooderin rakennetta.Figure 2 illustrates the structure of a modified CELP encoder.
1 25 Keksinnön tarkastelun selventämiseksi viitataan en- * i · » » · I1',’ siksi julkaisuun "Improving Performance of Code Excidet LPC-Coders by Joint Optimization" (Speech Communication 8 : (1989), sivut 363 - 369).1 25 For the sake of clarity in the discussion of the invention, reference is made to "Improving Performance of Code Excitation LPC-Coders by Joint Optimization" (Speech Communication 8: (1989), pages 363-369).
CELP (Code-excited linear prediction) -kooderit kuu- • 1 · 30 luvat RELP (Residual Excited Linear Prediction) -kooderien ·., luokkaan, jossa puhearvojen päivitys jonot synnytetään suo- ; ,·, dattimen avulla, joka edustaa puheenmuodostusta. Päivitys- jono saadaan koodikirjan avulla, josta valitaan paras koo-T dikirjavektori "synteesiin perustuvan analyysin" menetel- *,!,· 35 mällä. Paras koodikirjavektori tarkoittaa tässä vektoria, 116597 3 jonka samankaltaisuus alkuperäisen puheen näytteitysarvon kanssa on suurin. Tämä samankaltaisuus arvioidaan ennalta asetellun virhekriteerin, esim. keskimääräisen neliövirheen pohjalta. Koodikirja täytetään ensin normaalijakaumaa vas-5 taavilla satunnaisarvoilla. CELP-kooderin rakenne näkyy kuviosta 1. Ensimmäisessä vaiheessa lineaarisen ennakoin-tisuodattimen, jota kuviossa 1 on merkitty siirtofunktion H (Z) avulla, muistin osuus vähennetään tulopuolen puheenCELP (Code-excited Linear Prediction) encoders are • 1 · 30 licensed to RELP (Residual Excited Linear Prediction) encoders ·., A class in which speech value update queues are generated directly; , ·, By means of a datum representing speech formation. The update queue is obtained by using a codebook from which the best size-codebook vector is selected by the method of "synthesis-based analysis". The best codebook vector here refers to the vector, 116597 3, which has the greatest similarity with the sample speech value of the original speech. This similarity is estimated on the basis of a predefined error criterion, e.g., an average squared error. The codebook is first filled with random values representing normal distribution. The CELP encoder structure shown in Figure 1. In the first step the linear advance tisuodattimen, which in Figure 1 are denoted by the transfer function H (z), a memory portion will reduce the input side of the speech
Ob näytteitysarvosta ja tuloksena oleva signaali painote- 10 taan siirtofunktion W(Z) käsittävän suodattimen välityksellä. Toisessa vaiheessa äänenkorkeuden ennakointisuodattimen (jota on luonnehdittu siirtofunktioiden H T(Z) ja H (Z) avulla) painotetun muistiarvon osuus vähennetään. Lopuksi painotettu virhesignaali e (n) syntyy muodostamalla erotus w 15 suodatetun koodikirjavektorin (suodatinfunktiot H (Z) jaOb is sampled and the resulting signal is weighted through a filter comprising a transfer function W (Z). In the second step, the proportion of the weighted memory value of the pitch prediction filter (characterized by the transmission functions H T (Z) and H (Z)) is reduced. Finally, the weighted error signal e (n) is generated by generating the difference w 15 in the filtered codebook vector (filter functions H (Z) and
LL
H (Z)) ja aiemmin määritellyn signaalin s (n) välille. Vir- V» w hesignaalin e (n) energia on kaikkien koodimuuttujien funk-w tio, esim.H (Z)) and the predefined signal s (n). The energy of the signal V (w) w e (n) is a function of all code variables, e.g.
20 E = ffa^ M, b±, j, Cj), jossa a. silloin, kun i = 1,2,..., P ilmaisee LP-suodat-20 E = ffa ^ M, b ±, j, Cj), where a. For i = 1,2, ..., P denotes the LP filter-
IM · 1 OIM · 1 O
: timen kertoimet, :·,·! M äänenkorkeusjakson, ^ ! 25 b. silloin, kun i = 1,2,..., P, äänenkorkeuden ennakointi-: time odds,: ·, ·! M pitch, ^! 25 b. For i = 1,2, ..., P,
: : : i L::: i L
kertoimet, j = 1,2,...K koodikirjamerkinnät sekä • > · bcoefficients, j = 1.2, ... K codebook entries and •> · b
Cj vastaavan skaalaustekijän.Cj the corresponding scaling factor.
Paras mahdollinen puheenlaatu saavutetaan, kun kaik- • t i 30 ki nämä signaalimuuttujät optimoidaan yhteisesti. Seuraavan optimoinnin yhteydessä ei LP-muuttujaa ai tarkastella, sil- : lä sen ottaminen huomioon merkitsee tuskin toteutettavissa ’ olevaa laskennallista työtä.The best possible speech quality is achieved by • optimizing these signal variables collectively. In the next optimization, the LP variable will not be considered, since taking it into account will hardly do any computational work.
» I»I
T Minimoimalla funktio E = f(M, j, ) saavutetaan 35 alioptimaalinen likiarvo.T By minimizing the function E = f (M, j,), 35 suboptimal approximations are obtained.
116597 4116597 4
Lineaarinen ennakointisynteesisuodatin p i -1 H (Z) - (1- E s a. z ) 5 S i=l 1 kuvaa puhespektrin formanttirakennetta. Painotussuodatin W(Z) = Hgi Ζ/γ) HS(Z) -1 10 jolloin 0 < γ < 1, aikaansaa spektraalisen kohinarajoituk-sen epätäydellisen herätyksen seurauksena. HW(Z) tuottaa LP-suodattimen ja painotussuodattimen ketjutuksen 15 HW(Z) = Hg(Z) . W(Z) .The linear prediction synthesis filter p i -1 H (Z) - (1- E s a. Z) 5 S i = 11 represents the formant structure of the speech spectrum. The weighting filter W (Z) = Hgi Ζ / γ) HS (Z) -110, where 0 <γ <1, provides a spectral noise restriction due to incomplete excitation. HW (Z) produces a chaining of the LP filter and the weighting filter 15 HW (Z) = Hg (Z). W (Z).
Äänenkorkeuden ennakointisynteesisuodatinta, jossa on vainA pitch prediction synthesis filter with only
yksi väliotto p = 1 kohdalla, kuvataan siirtofunktion Lone tap at p = 1 is described by the transfer function L
20 H (Z) = (1 - bZ_M ) _120 H (Z) = (1 - bZ_M) _1
LL
avulla.through.
: Suodattimien H (Z), H (Z) ja W(Z) muistikennot ovat · W Li kuviossa 1 nollassa. Äänenkorkeusprediktorin muuttujat päi-| * : 25 vitetään aina N :n näytteitysarvon jälkeen (alikehyksen : sisältö) ja LP-suodattimen vastaavat päivitetään joka I N:nnen näytteitysarvon jälkeen. Oletuksella N > N voidaan: The memory cells of the filters H (Z), H (Z) and W (Z) are · W Li in Figure 1 at zero. Volume Predictor Variables Daily | *: 25 is always scanned after N sampling values (subframe: contents) and LP filters are updated after every I N sampling values. By default, N> N can be
«M I S«M I S
äänenkorkeuden ennakointisuodatin poistaa kuvion 1 herätys- « haarasta, sillä se ei vaikuta suodattimen H (Z) tuloon ar- w . . 30 voon n < N pääsemiseksi.the pitch prediction filter removes the wake branch of Fig. 1 as it does not affect the input of filter H (Z) to w. . 30 streams to reach n <N.
* * · b* * · B
Jotta äänenkorkeusprediktorin muistin vaikutusta > t voidaan tarkastella lähemmin, on kuvioon 1 kuvattu yksi-;tj .* tyiskohtaisesti muistin muistikennot sekä niiden liitännät.For a closer look at the effect of the pitch predictor memory> t, the memory cells of the memory and their connections are described in detail in Fig. 1.
; Muistikennojen arvoja on merkitty l(k) :11a. Jokainen äänen- 35 korkeusjakson muuttuja M = k tuottaa toisen signaalin d (n) muistikennoista muodostetun viive johdon lähtöön. K riippuu; The values of the memory cells are denoted by l (k). Each of the pitch variables M = k produces a delay of the second signal d (n) from the memory cells to the line output. K depends
* * * * * L* * * * * L
116597 5 äänenkorkeusjakson M sallitusta alueesta. Hyvä valinta M:n arvoksi on välillä 40 ja 103. Tämän alueen kattamiseksi K =64.116597 5 of the allowed range for the pitch period M. A good choice for M is between 40 and 103. To cover this range, K = 64.
LL
Nämä edellytykset johtavat suoraan kuvion 2 mukai- 5 seen lohkokaaviokuvaan.These conditions lead directly to the block diagram of Figure 2.
K :n erilaista signaalia d (n) voidaan tarkastella L KThe different signal d (n) of K can be viewed by L K
ikään kuin ne olisi koottu yhteen koodikirjaan. Tässä esityksessä ei ole mitään eroa herätekoodikirjan CB1 käsittävän haaran sekä koodikirjan CB2 käsittävän haaran rakentei-10 den välillä, mikä ilmenee äänenkorkeusprediktorin suodatin-muistista. Ainoastaan koodikirjojen CB1 ja CB2 ominaiskäy-rät eroavat toisistaan: herätekoodikirja CBl on kiinteä -siihen kirjataan kiinteät vektorit - kun taas koodikirja CB2 on äänenkorkeusmuuttujia varten ajasta riippuvainen 15 (adaptiivinen), sillä suodatinmuistia muunnellaan kunkin alikehyksen jälkeen. Näiden muuttujien optimoimiseksi täytyy tutkia suuri määrä (K K ) erilaisia yhdistelmiä, jottaas if they were put together in a single codebook. In this presentation, there is no difference between the structures of the branch comprising the excitation codebook CB1 and the branch comprising the codebook CB2, which is evident from the pitch memory filter memory. Only the characteristic curves of the codebooks CB1 and CB2 are different: the excitation codebook CB1 is fixed - fixed vectors are recorded therein, whereas the codebook CB2 is time dependent (adjustable) for pitch variables, since the filter memory is modified after each subframe. To optimize these variables, you need to study a large number (K K) of different combinations in order to
L SL S
löydetään minimaalinen virhe-energia E. Kaikki nämä yhdistelmät vastaavat koodikirjapituutta K K kun taas peräk-we find the minimal error energy E. All of these combinations correspond to the codebook length K K while
L SL S
20 käinen optimointi kaksivaiheista vektorikvantisointia varten vastaa kahta koodikirjaa pituuksiltaan tai K^.The 20-hand optimization for two-stage vector quantization corresponds to two codebooks of length or K i.
• Kuvion 2 lohkokaavion mukaisesti virhe-energia E on : koodikirjamerkintöjen j ja k sekä skaalaustekijoiden ja b funktio:According to the block diagram of Figure 2, the error energy E is a function of the codebook entries j and k, and the scaling factors and b:
• » K• »K
. . 25 Ns 2 !.: ! E(j,k,b , c ) = Σ [S (h) - [(b d.(n) + c. T (n) 1 h (hj|] l K J Π=1 ^ Λ Λ J J w 1 1 jolloin h (n) ilmaisee painotetun LP-suodattimen pulssivas-. , 30 tausta ja 1 levityssymbolia.. . 25 Ns 2!.:! E (j, k, b, c) = Σ [S (h) - [(b d. (N) + c. T (n) 1 h (hj |) l KJ Π = 1 ^ Λ Λ JJ w 1 1 where h (n) indicates pulse response of the weighted LP filter, 30 background and 1 spread symbol.
Virhe-energian E minimiin pääsy edellyttää skaalaus- * t tekijöiden suhteen seuraavan lineaaristen yhtälöiden : : : järjestelmän täyttymistä: • » , 35 f<pk(n)' pk(n)> <pk(n)/ qj(n)>\ f bk ) \<Pk(n), q . (n) > <q (n), q (n)> / (d j.In order to obtain the minimum error energy E, the following linear equations must be scaled * for the factors:::, the system must satisfy: • », 35 f <pk (n) 'pk (n)> <pk (n) / qj (n)> \ f bk) \ <Pk (n), q. (n)> <q (n), q (n)> / (d j.
| , J J J J| , J J J J
116597 6 |Sc(n)' sw(n)>\ \qj(n)' sw(n)>/ jolloin Pk(n) = <*k(n) * ^(n), 5 q (n) = r (n) * h (n), j J w116597 6 | Sc (n) 'sw (n)> \ \ qj (n)' sw (n)> / where Pk (n) = <* k (n) * ^ (n), 5 q (n) = r (n) * h (n), j J w
NOF
ja <^/ \ r b >- Σδ a(n) b(n) .and <^ / \ r b> - Σδ a (n) b (n).
(n) (n) n=1 10 Käyttämällä näitä suhteita syntyy minimaalista virhe-energiaa varten 15 Emin = <sW(n), sw(n)> - T( j,k,c_.,bk) .(n) (n) n = 1 10 Using these ratios, for a minimal error energy, 15 Emin = <sW (n), sw (n)> - T (j, k, c _., bk).
Koska energia alikehystä varten on vakio, täytyy ilmaisu 20 T(j,k,Cj,bk) = bk <pk(n), sw(n)> + <q^(n), sw(n)> maksimoida. Tämä maksimointi toteutetaan kahdessa vaihees- • · :.; · sa: - lineaarisen yhtälöjärjestelmän ratkaisu ί : 25 - T(j,k,c.,b ):n laskeminen.Since the energy for the subframe is constant, the expression 20 T (j, k, Cj, bk) = bk <pk (n), sw (n)> + <q ^ (n), sw (n)> must be maximized. This maximization is accomplished in two steps • ·:.; · Sa: - Solution of the linear system of equations ί: 25 - Calculation of T (j, k, c., B).
* Nämä vaiheet täytyy toteuttaa K K kertaa. Muita me-* These steps must be performed K K times. Other Me-
* · > · L S* ·> · L S
: netelmää yksinkertaistavia toimia ovat, että esim. n. 90 %: The steps to simplify the method are that, for example, about 90%
* * * I* * * I
vektoreista asetetaan arvoon nolla, julkaisun DE 3 834 871 I i iof the vectors is set to zero, according to DE 3 834 871 II
Cl mukainen käänteissuodatus, vain sellaisten vektorien , , 30 salliminen, jotka esim. sisältävät ainaostaan kolme arvosta ’.‘l,· nolla eriävää autokorrelaatiokerrointa.Inverse filtering according to Cl, allowing only vectors, for example, which always contain at least three values '', 1. zero autocorrelation coefficients.
• *• *
Keksinnön mukaisesti ja toisin kuin tähän saakka : : : tunnetuissa menetelmissä valitaan nyt toisesta koodikirjas- ta CB2 n > 2, esimerkissä n = 2 parhaat vektorit (parhaat \ 35 vektorit tarkoittaa, että nämä vektorit antavat tietyn vir- t I i hekriteerin, esim. kesikimääräisen neliövirheen suhteen 116597 7 pienimmät poikkeamat, ts. parhaat ennakoidut arvot). Nämä kaksi parasta vektoria yhdistetään sitten kaikkien kiinteitä vektoreita sisältävävän ensimmäisen koodikirjan CB1 vektoreiden kanssa edellä mainitun lineaaristen yhtälöiden 5 järjestelmän mukaisesti. Yhdistetystä joukosta valitaan minimaalisen virhe-energian (sama tai muu virhekriteeri) puolesta alkuperäistä näytteitysarvoa parhaiten vastaavat arvot ja ne valmistellaan esim. siirrettäväksi alhaisemman bittinopeuden käsittävää siirtokanavaa pitkin.In accordance with the invention, and unlike hitherto: in known methods, the best vectors are now selected from the second codebook CB2 n> 2, in the example n = 2 (the best vectors mean that these vectors give a certain current I i, e.g. 116597 7 (ie, the best predicted values). These two best vectors are then combined with all vectors of the first codebook CB1 containing solid vectors according to the above system of linear equations 5. For the minimal error energy (same or another error criterion), the values that best match the original sampling value are selected from the combined set, and are prepared, for example, to be transmitted over a lower bit rate transmission channel.
10 Jos käsittelyä monimutkaistetaan siten, että käsi tellään enemmän kuin kaksi parasta vektoria toisesta koodikirjasta, on tuloksena parempi puheen laatu. Ilman että tätä parannettua puheen laatua joudutaan heikentämään, voidaan käsittelyä yksinkertaistaa edelleen siten, että 15 ensimmäiseen koodikirjaan CB1 tehtäviä merkintöjä ohennetaan. Lisäksi käsittelyyn käytettävä työmäärä ei nouse lineaarisesti käsittelyyn valittujen vektoorien määrän kasvaessa, sillä monia jo ensimmäisessä vaiheessa laskettuja yhdistelmätuloksia voidaan käyttää hyväksi.10 If the processing is complicated by handling more than two of the best vectors from the second codebook, the result will be a better speech quality. Without having to reduce this improved speech quality, the processing can be further simplified by reducing the entries in the first 15 codebooks CB1. In addition, the amount of work involved in processing does not increase linearly as the number of vectors selected for processing increases, since many combination results already calculated in the first step can be utilized.
20 Koodikirjan ohennus suoritetaan edullisesti puheen laatua heikentämättä siten, että ohennettavan joukon perus- j taksi määritellään kahden kehys jakson (alikehyksen) vekto- i i i | : rien summabitit, joista sitten edullisesti vaimennetaan * ‘ · y juuri niin monta bittiä, että käsittetyö on juuri yhtä suu- ! ! 25 ri kuin käsiteltäessä ainoastaan yhtä valittua parasta vek- toria toisesta koodikirjasta CB2. Koodikirjan ohennusta : selitetään yksityiskohtaisesti edellä mainitussa hakijan • · · ’ hakemuksessa, joissa on samat päivämäärät.Preferably, codebook thinning is performed without impairing speech quality by defining the basis of the set of thinnings to be the vector i i | : s sumbits, which are then preferably suppressed by * '· y just as many bits that the workmanship is just as large! ! 25 if only one selected best vector from the second codebook CB2 is processed. Codebook Thinning: explained in detail in the above applicant's application · · · 'with the same dates.
Claims (7)
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4315315 | 1993-05-07 | ||
DE4315315A DE4315315A1 (en) | 1993-05-07 | 1993-05-07 | Method for vector quantization, especially of speech signals |
PCT/DE1994/000435 WO1994027286A1 (en) | 1993-05-07 | 1994-04-20 | Process for vector quantization, especially of voice signals |
DE9400435 | 1994-04-20 |
Publications (3)
Publication Number | Publication Date |
---|---|
FI955325A0 FI955325A0 (en) | 1995-11-06 |
FI955325A FI955325A (en) | 1995-11-06 |
FI116597B true FI116597B (en) | 2005-12-30 |
Family
ID=6487539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI955325A FI116597B (en) | 1993-05-07 | 1995-11-06 | In particular, a method for vector quantization of speech signals |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP0697125B1 (en) |
AU (1) | AU681137B2 (en) |
DE (2) | DE4315315A1 (en) |
DK (1) | DK0697125T3 (en) |
ES (1) | ES2136732T3 (en) |
FI (1) | FI116597B (en) |
HU (1) | HU216223B (en) |
WO (1) | WO1994027286A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19538852A1 (en) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Method and arrangement for classifying speech signals |
US5781881A (en) * | 1995-10-19 | 1998-07-14 | Deutsche Telekom Ag | Variable-subframe-length speech-coding classes derived from wavelet-transform parameters |
US5867814A (en) * | 1995-11-17 | 1999-02-02 | National Semiconductor Corporation | Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method |
GB2312360B (en) * | 1996-04-12 | 2001-01-24 | Olympus Optical Co | Voice signal coding apparatus |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL94119A (en) * | 1989-06-23 | 1996-06-18 | Motorola Inc | Digital speech coder |
JP3089769B2 (en) * | 1991-12-03 | 2000-09-18 | 日本電気株式会社 | Audio coding device |
-
1993
- 1993-05-07 DE DE4315315A patent/DE4315315A1/en not_active Withdrawn
-
1994
- 1994-04-20 DK DK94912472T patent/DK0697125T3/en active
- 1994-04-20 ES ES94912472T patent/ES2136732T3/en not_active Expired - Lifetime
- 1994-04-20 DE DE59408495T patent/DE59408495D1/en not_active Expired - Lifetime
- 1994-04-20 EP EP94912472A patent/EP0697125B1/en not_active Expired - Lifetime
- 1994-04-20 HU HU9503179A patent/HU216223B/en unknown
- 1994-04-20 AU AU65025/94A patent/AU681137B2/en not_active Expired
- 1994-04-20 WO PCT/DE1994/000435 patent/WO1994027286A1/en active IP Right Grant
-
1995
- 1995-11-06 FI FI955325A patent/FI116597B/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP0697125A1 (en) | 1996-02-21 |
HU9503179D0 (en) | 1995-12-28 |
AU6502594A (en) | 1994-12-12 |
WO1994027286A1 (en) | 1994-11-24 |
DE4315315A1 (en) | 1994-11-10 |
DE59408495D1 (en) | 1999-08-19 |
AU681137B2 (en) | 1997-08-21 |
HUT73545A (en) | 1996-08-28 |
DK0697125T3 (en) | 2000-01-24 |
HU216223B (en) | 1999-05-28 |
ES2136732T3 (en) | 1999-12-01 |
FI955325A0 (en) | 1995-11-06 |
FI955325A (en) | 1995-11-06 |
EP0697125B1 (en) | 1999-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1735927B (en) | Method and apparatus for improved quality voice transcoding | |
CA1336455C (en) | Code excited linear predictive vocoder using virtual searching | |
KR100417634B1 (en) | Perceptual weighting device and method for efficient coding of wideband signals | |
JP5400701B2 (en) | Method and apparatus for speech coding | |
EP0731449B1 (en) | Method for the modification of LPC coefficients of acoustic signals | |
US5553191A (en) | Double mode long term prediction in speech coding | |
RU2005137320A (en) | METHOD AND DEVICE FOR QUANTIZATION OF AMPLIFICATION IN WIDE-BAND SPEECH CODING WITH VARIABLE BIT TRANSMISSION SPEED | |
EP0657874B1 (en) | Voice coder and a method for searching codebooks | |
US5426718A (en) | Speech signal coding using correlation valves between subframes | |
JP2007537494A (en) | Method and apparatus for speech rate conversion in a multi-rate speech coder for telecommunications | |
CA1213059A (en) | Multi-pulse excited linear predictive speech coder | |
MX2013004673A (en) | Coding generic audio signals at low bitrates and low delay. | |
FI116597B (en) | In particular, a method for vector quantization of speech signals | |
KR100756207B1 (en) | Method and apparatus for coding an informational signal | |
EP0602826B1 (en) | Time shifting for analysis-by-synthesis coding | |
EP1114415B1 (en) | Linear predictive analysis-by-synthesis encoding method and encoder | |
KR100465316B1 (en) | Speech encoder and speech encoding method thereof | |
JP3168238B2 (en) | Method and apparatus for increasing the periodicity of a reconstructed audio signal | |
US6078881A (en) | Speech encoding and decoding method and speech encoding and decoding apparatus | |
KR970009747B1 (en) | Algorithm of decreasing complexity in a qcelp vocoder | |
KR100703325B1 (en) | Apparatus and method for converting rate of speech packet | |
Shoham | On the use of direct vector quantization in LPC-based analysis-by-synthesis coding systems | |
EP0662682A2 (en) | Speech signal coding | |
KR100389898B1 (en) | Method for quantizing linear spectrum pair coefficient in coding voice | |
Park et al. | Analysis and optimization of speech coder algorithm for CDMA digital cellular |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GB | Transfer or assigment of application |
Owner name: ROBERT BOSCH GMBH |
|
FG | Patent granted |
Ref document number: 116597 Country of ref document: FI |
|
PC | Transfer of assignment of patent |
Owner name: IPCOM GMBH & CO.KG Free format text: IPCOM GMBH & CO.KG |
|
MA | Patent expired |