HU216223B - Eljárás vektorkvantáláshoz, különösen beszédjelekhez - Google Patents

Eljárás vektorkvantáláshoz, különösen beszédjelekhez Download PDF

Info

Publication number
HU216223B
HU216223B HU9503179A HU9503179A HU216223B HU 216223 B HU216223 B HU 216223B HU 9503179 A HU9503179 A HU 9503179A HU 9503179 A HU9503179 A HU 9503179A HU 216223 B HU216223 B HU 216223B
Authority
HU
Hungary
Prior art keywords
codebook
vectors
vector
value
pitch
Prior art date
Application number
HU9503179A
Other languages
English (en)
Other versions
HUT73545A (en
HU9503179D0 (en
Inventor
Jörg-Martin Müller
Bertram Wächter
Original Assignee
Robert Bosch Gmbh.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=6487539&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=HU216223(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Robert Bosch Gmbh. filed Critical Robert Bosch Gmbh.
Publication of HU9503179D0 publication Critical patent/HU9503179D0/hu
Publication of HUT73545A publication Critical patent/HUT73545A/hu
Publication of HU216223B publication Critical patent/HU216223B/hu

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

A találmány tárgya eljárás letapőgatőtt jelértékek, különösenbeszédjelek vektőrkvantálására. A találmány szerinti eljáráskülönlegessége, hőgy egy első kódkönyvbe (CB1) rögzített vektőrőkatvesznek fel, egy másődik kódkönyvbe (CB2) meghatárőzőtt időtartam űtánaktűalizálandó vektőrőkat vesznek fel, majd a másődik kódkönyvből(CB2) legalább két őlyan vektőrt kiválasztanak, amelyek egy el remeghatárőzőtt hibakritériűm alapján a legjőbb predikciós értéketadják. A másődik kódkönyvből (CB2) kiválasztőtt legalább kettő vektőrtösszekapcsőlják az első kódkönyv (CB1) vektőraival, és az öszekapcsőlt vektőrők halmazából őptimális letapőgatási értékkéntkiválasztják azt a vektőrt, amely az első vagy egy tővábbihibakritériűm alapján a legkisebb távőlságra van az eredetiletapőgatőtt ért ktől. ŕ

Description

A találmány tárgya eljárás letapogatott jelértékek, különösen beszédjelek vektorkvantálására. A találmány szerinti eljárás során vektorkvantálás alkalmazásával letapogatott jelértékeket kódolunk.
A Speech Communication 8 (1989) című kiadvány 363-369. oldalán megismerhető egy olyan CELP beszédkódolási eljárás (Code Excited Linear Prediction), amelynél a kódolóparamétereket együttesen optimalizálják. Ezzel a módszerrel a gerjesztési kódkönyv hossza jelentősen csökkenthető a szekvenciális optimalizáláshoz képest.
A WO 91/01545 számú közzétételi iratból olyan beszédkódoló ismerhető meg, amelynél egy kódkönyvbe felvett gerjesztési vektorokat alkalmaznak arra a célra, hogy az eredeti letapogatott beszédjelet legjobban reprezentáló gerjesztési vektort állítsanak elő. A fenti irodalmi helyen leírt beszédkódolóban két gerjesztési vektort egy-egy kódkönyvből vesznek ki egy letapogatott érték leírásához. Ennél az eljárásnál először a hangmagasság (pitch) információtól függetlenül kiválasztanak és ortogonalizálnak egy első gerjesztővektort. A második gerjesztővektort hasonlóan választják ki. A második kódkönyvből kiválasztott második gerjesztővektor ortogonalizálásánál figyelembe veszik a keletkező és az első kódkönyvből kiválasztott első geijesztővektort is. Ezt a kiválasztási eljárást azután megismétlik a második kódkönyvből kiválasztott, ortogonalizált gerjesztőjellel is, abból a célból, hogy végül azonosítsák azokat a gerjesztővektorokat, amelyek legjobban egyeznek az eredeti letapogatott beszédjellel.
A jelen találmány célja, hogy úgy növelje az optimalizált letapogatási érték kiválasztásának a megbízhatóságát, hogy ugyanakkor ne növekedjen túlzottan a feldolgozási munka. Ezt a célt a találmány értelmében olyan eljárással valósítjuk meg, amely során
- egy első kódkönyvbe rögzített vektorokat veszünk fel,
- egy második kódkönyvbe meghatározott időtartam után aktualizálandó vektorokat veszünk fel,
- a második kódkönyvből legalább két olyan vektort kiválasztunk, amelyek egy előre meghatározott hibakritérium alapján a legjobb predikciós értéket adják,
- a második kódkönyvből kiválasztott legalább kettő vektort összekapcsoljuk az első kódkönyv vektoraival,
- az összekapcsolt vektorok halmazából optimális letapogatási értékként kiválasztjuk azt a vektort, amely az első vagy egy további hibakritérium alapján a legkisebb távolságra van az eredeti letapogatott értéktől.
A találmány a következő felismerésen alapul: Ha az ismert módszerekkel ellentétben [Speech Communication 8 (1989), 363-369. oldal vagy WO 91/01545] az adaptív (második) kódkönyvből egynél több olyan vektort állítunk elő az első (rögzített) kódkönyv összes vektorával való összekapcsoláshoz, amelynek minimális az eltérése, akkor növekszik ugyan a feldolgozási munkaráfordítás (számítási munka), de a letapogatott érték legkisebb hibával történő optimalizálásának megbízhatósága növekszik. Ez a megbízhatóságnövekedés a beszédjelek feldolgozásánál hangminőséget jelent. Tekintve, hogy az adaptív kódkönyvből való egynél több vektor figyelembevétele során a munkaráfordítás a lineárisnál lassabban növekszik, ezért a rögzített kódkönyv mérsékelt csökkentésével, például egy kódritkítással (keretritkítással) az US 5 487128 számú szabadalmi leírásban említett módon, illetve a fent említett Speech Communication 8 (1989) című kiadvány 363-369. oldalán található cikk által ismertetett eljárással elvégezve, a feldolgozási munka lényegében állandó szinten tartható, összehasonlítva a ritkítás nélküli kódkönyvvel végzett feldolgozási munkával. Tehát a találmány szerint a szokásos eljárásnál megszokott mértékű feldolgozási munkával jelentősen jobb hangminőség érhető el.
A találmányt részleteiben a mellékelt rajzok segítségével szemléltetett példaképpeni eljárás alapján ismertetjük, ahol az
1. ábra egy CELP kódoló struktúrája, és a
2. ábra egy módosított CELP kódoló struktúrája.
A találmány jobb érthetősége végett hivatkozunk még a Speech Communication 8 (1989) című kiadvány 363-369. oldalán közölt „Improving Performance of Code-Excited LPC Coders by Joint Optimization” (Kódgerjesztésű LPC kódolók teljesítményének javítása közös optimalizálással) című nyilvánosságra hozott irodalomra.
A CELP (Code-excited linear prediction) kódolók az olyan RELP (Residual Excited Linear Prediction) kódolókhoz tartoznak, amelyeknél a beszédjelek aktualizált értékeit tartalmazó szekvenciát egy, a beszédlétrehozást reprezentáló szűrővel állítják elő. Az aktualizálási szekvenciát egy kódkönyv segítségével állítják elő, amelyből a legjobb kódkönywektort egy úgynevezett „szintézis útján történő analízis” módszerrel választják ki. A legjobb kódkönywektor itt azt a vektort jelenti, amely a legjobban hasonlít az eredeti letapogatott beszédjelértékhez. Ezt a hasonlóságot egy előre megadott hibakritérium, például a legkisebb négyzetes eltérés alapján ítélik meg. A kódkönyvet kezdetben Gauss-eloszlású véletlen értékekkel töltik fel. Egy ilyen CELP kódoló logikai struktúráját szemlélteti az 1. ábra. Első lépésként az 1. ábrán a Hos(z) átviteli függvénnyel jellemzett, lineáris predikciós szűrő, röviden LP szűrő tárolójának járulékát kivonjuk a bemeneti s(n) letapogatott beszédjelértékből, és az így kapott jelet a W(z) átviteli fuggvényű szűrővel súlyozzuk. Az 1. és 2. ábrán δ(η) a Hos(0) átviteli függvénnyel jellemzett LP szűrő bemeneti értékeit, illetve a HOL(z) átviteli függvénnyel jellemzett hangmagasság-predikciós szűrő (pitchprediction filter) bemeneti értékeit jelöli.
A második lépésben a HOL(z) és Hw(z) átviteli függvényekkel jellemzett hangmagasság-predikciós szűrő (pitch-prediction filter) súlyozott tárolóértékének járulékát vonjuk ki. Végül a súlyozott ew(n) hibajelet a HL(z) és Hw(z) szűrőfuggvényekkel megszűrt η(η) kódkönywektor és az előtte megkapott sw(n) jel közötti különbség képzésével kapjuk meg. Itt az η(η) értékek a CB kódkönyv vektorait jelölik, és Cj a megfelelő skálázást faktor.
HU 216 223 Β
Az ew(n) hibajel energiája az összes kódolóparaméter függvénye lesz, például:
E=f(ai,M,bi,j,cj), ahol a; az LP-szűrő együtthatói, ahol i= 1,2, ..., Ps,
M a hangmagasság periódusa, bj a hangmagasság-prediktor együtthatók, ahol i=l,2,..., PL, j= 1,2,..., Ks a kódkönyv vektorai, és
Cj a megfelelő skálázási faktor.
A legjobb beszédhangminőség akkor érhető el, ha az összes fenti jelparamétert együtt optimalizáljuk. A következő optimalizálás során az aj LP-szűrő együtthatókat nem vesszük figyelembe, mivel ez gyakorlatilag nem realizálható számítási munkatöbblettel járna.
Az
E=f(M,bj,j,Cj) függvény minimalizálásával egy szuboptimális közelítés érhető el.
A p,
Hs(z)=(l-Eaiz-i)i i = l átviteli függvénnyel jellemezhető lineáris predikciós szintézisszűrő a beszédspektrum formánsstruktúráját írja le. A Hs(z) szűrő hasonló szerkezetű, mint a Hos(z) LP szűrő. Az előbbinek a segítségével állítható elő a W(z) súlyfüggvény a
W(z)=Hs(Z/y)Hs(z) * összeüggés szerint, ahol 0<γ<1 a nem teljes geijesztés alapján egy spektrális zajkorlátozást jelent. A Hw(z) a Hs(z) lineáris predukciós szintézisszűrő és a W(z) súlyszűrő láncolásának eredményét adja:
Hw(z)=Hs(z) · W(z)
A hangmagasság-predikciós szűrőnek (pitch-prediktor szűrő) csak pL= 1 helyen van leágazása, és a
HL(z)=(l-bZ M)-i átviteli függvény írja le.
Az 1. ábrán jelzett Hw(z), HL(z) és W(z) szűrők z 1 tárolócellái zérus értékűek. A hangmagasság-predikciós szűrő (pitch-prediktor szűrő) paramétereit mindig Ns letapogatási érték (subffame-tartalom) után, míg az LP szűrő paramétereit minden N letapogatási érték után aktualizáljuk. Feltételezve, hogy N>NS, a pitch-predikciós szűrő eltávolítható a gerjesztési ágból az 1. ábrán, mivel n<Ns esetén nem befolyásolja a Hw(z) szűrő bemenetét.
A Hol(z) átviteli fuggvényű hangmagasság-predikciós szűrőhöz tartozó tároló hatásának szemléltetéséhez az 1. ábrán részletesen bemutatjuk a tároló egyes z-> tárolócelláit és azok kapcsolódását. Az egyes z-* tárolócellákban tárolt értékeket l(k) jelképezi. Minden egyes M=k pitch-periódus paraméter egy másik dk(n) vektort mint kimenőjelet generál a z 1 tárolócella kimenetén kialakított késleltetővezeték kimenetén. KL az M pitchperiódus megengedett tartományától függ. Jó választás az M értékére a 40 és 103 közötti tartomány. Ennek a tartománynak a lefedéséhez KL=64 értéket kell választani.
Ezek az előfeltételek közvetlenül a 2. ábrán látható blokkvázlat kialakítását eredményezik.
A KL számú különböző dk(n) vektor (jel) felfogható úgy is, mintha azok egy kódkönyvben lennének össze10 fogva. Ebben az ábrázolásban nincsen különbség a CB1 kódkönyvet tartalmazó ág és a CB2 kódkönyvet tartalmazó ág struktúrájában. A CB2 kódkönyv dk(n) vektorai az 1. ábrán látható H0L(z) hangmagasság-predikciós szűrő (pitch-prediktor szűrő) tárolójának dk(n) vektoraiból jöttek létre. Csak a két CB 1 és CB2 kódkönyv karakterisztikája különbözik: a gerjesztési CB1 kódkönyv rögzített, amelybe állandó rj(n) vektorokat veszünk fel. Ezzel szemben a pitch-paraméterekre jellemző dk(n) vektorokat tartalmazó CB2 kódkönyv időfüggő (adaptív) kialakítású, mivel a szűrőtárolót minden subframe után módosítjuk. Ezeknek a paramétereknek az optimalizálásához nagyszámú (KLKS) különböző kombinációt kell végignézni, hogy megtaláljuk a minimális E hibaenergiát. Ezek a kombinációk egy KLKS hosszúságú kódkönyvnek felelnek meg, míg a szekvenciális optimalizálás egy kétlépcsős vektorkvantálásnak felel meg, ahol kettő KL, illetve Ks hosszúságú CB1, CB2 kódkönyvvel operálunk.
A 2. ábrán látható blokkvázlat szerinti eljárásnál az E hibaenergia a j és k kódkönyvelemek száma és a Cj és bk skálázási faktorok függvénye:
ns
E(j ΛΛ,^)=[sw(n) - [bkdk(n)+cjrj(n)*hra(n)]]2 i = l ahol h0)(n) a súlyozott LP-szűrő impulzusválasza és * a konvolúciós szimbólum.
Az E hibaenergia minimalizálásához a skálázási faktoroknak a következő lineáris egyenletrendszert kell kielégíteniük:
<<Pk(n),pk(n)> <pk(n),qj(n)>Vbk^ /<pk(n),sw(n)» 'v<Pk(n),qj(n)> <^(η),^(η)>^ ,' = l|<<qj(n)sw(n)>
ahol
Pk(n)=dk(n)*hffl(n), és qj(n)=rj(n)*hü)(n), valamint Ns <a(„)An)>= Σ a(n)b(n)· i = l
A fenti összefüggések alapján a minimális hibaenergiára a következő összefüggést kapjuk:
Emin= <sw(n),sw(n)>-T(j,k,Cj,bk)
Mivel egy subframe energiája állandó, szükségképpen a
T(j,k,cj,bk)=bk<pk(n),sw(n)>+cj<qj(n),sw(n)> kifejezést maximalizálni kell. Ezt a maximalizálást két lépésben hajtjuk végre:
- megoldjuk a lineáris egyenletrendszert,
- kiszámítjuk T(j,k,Cj,bk) értékét.
Ezeket a lépéseket KLKs-szer kell végrehajtani. További egyszerűsítésekkel, például a vektorok körülbelül
90%-ának zérussá tételével, a DE 3834871 számú német szabadalmi iratban leírt módszerrel végzett inverz szűréssel, kizárólag olyan vektorok megengedésével, amelyeknek csak három, nullától különböző autokorrelációs együtthatója van, a számítási munka jelentősen csökkenthető.
A találmány értelmében és az eddig ismert eljárásokkal szemben a második CB2 kódkönyvből n>2, a példában n=2 legjobb vektort választjuk ki. (A legjobb vektor azt jelenti, hogy ezek a vektorok egy hibakritérium, pél60 dául a legkisebb négyzetes hiba alapján a legkisebb elté3
HU 216 223 Β rést, vagyis a legjobb predikciós értéket adják.) Ezt a két legjobb vektort ezután az első, rögzített vektorokat tartalmazó CB1 kódkönyv összes vektorával összekapcsoljuk az előbb ismertetett lineáris egyenletrendszer szerint. Az összekapcsolási halmazból kiválasztjuk az eredeti letapogatási értékhez képest az ugyanazon vagy egy további hibakritérium alapján a legkisebb hibaenergiát adó értékeket és például egy alacsony bit-adatátviteli sebességű átviteli csatornán történő továbbítás céljából előállítjuk az így kiválasztott értékeket.
Ha a második CB2 kódkönyvből kettőnél több legjobb vektort választunk ki, akkor az így megnövekedett feldolgozási munka jobb beszédhangminőséget eredményez. Ennek a jobb beszédhangminőségnek a csökkentése nélkül a feldolgozási munka úgy csökkenthető, hogy az első CB 1 kódkönyv tartalmát kiritkítjuk. Ezenkívül a feldolgozási munka a feldolgozandó kiválasztott vektorok számával nem nő lineárisan, mivel több, az első lépésben már kiszámított összekapcsolási értéket lehet hasznosítani.
A CB1 kódkönyv ritkítását előnyösen úgy lehet a beszédhangminőség romlása nélkül végrehajtani, hogy a ritkítandó halmazt két keretrész (subframe) vektorainak összegbitjeiből választjuk ki, amelyekből előnyösen éppen annyi bitet nyomunk el, hogy a feldolgozási munka körülbelül ugyanakkora legyen, mintha a második CB2 kódkönyvből csak egy kiválasztott legjobb vektort dolgoztunk volna fel. A kódkönyvritkítást (thinning) ismerteti többek között az US 5,487,128 számú irat, és nem képezi a jelen találmány tárgyát.

Claims (7)

1. Eljárás letapogatott jelértékek, különösen beszédjelek vektorkvantálására, azzal jellemezve, hogy
- egy első kódkönyvbe (CB1) rögzített vektorokat [rj(n)j veszünk fel,
- egy második kódkönyvbe (CB2) meghatározott időtartam után aktualizálandó vektorokat [dk(n)] veszünk fel,
- a második kódkönyvből (CB2) legalább két olyan vektort [dk(n)] kiválasztunk, amelyek egy előre meghatározott hibakritérium alapján a legjobb predikciós értéket adják,
- a második kódkönyvből (CB2) kiválasztott legalább kettő vektort [dk(n)] összekapcsoljuk az első kódkönyv (CB1) vektoraival [η(η)],
- az összekapcsolt vektorok halmazából optimális letapogatási értékként kiválasztjuk azt a vektort, amely az első vagy egy további hibakritérium alapján a legkisebb távolságra van az eredeti letapogatott értéktől [s(n)].
2. Az 1. igénypont szerinti eljárás, azzal jellemezve, hogy az első kódkönyvbe (CB1) beszédpredikcióhoz használt LP-szűrő gerjesztési vektorait [η(η)] veszszük fel.
3. Az 1. vagy 2. igénypont szerinti eljárás, azzal jellemezve, hgoy a második kódkönyvbe (CB2) egy hangmagasság(pitch)-szintézis szűrő gerjesztési vektorait [dk(n)j vesszük fel.
4. Az 1-3. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy az első kódkönyvbe (CB1) felvett vektorokat [η(η)] ritkítjuk.
5. Az 1-4. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy minden, az első kódkönyvbe (CB1) felvett vektorhoz [η(η)] meghatározunk minden olyan eltérést az eredeti letapogatási értéktől [s(n)], amely figyelembe veszi a második kódkönyvből (CB2) kiválasztott legalább kettő, predikciós értéket és/vagy pitch-prediktor értéket jellemző kódkönywektort [dk(n)j.
6. A 4. vagy 5. igénypont szerinti eljárás, azzal jellemezve, hogy az első kódkönyv (CB1) ritkításához elnyomjuk azokat a vektorkomponenseket, amelyek a beszédjel felosztására használt két keretrészek összegbitjeiből származnak.
7. A 4-6. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy az első kódkönyvet (CB1) olyan mértékben ritkítjuk, hogy a feldolgozási munkaráfordítás lényegében akkora legyen, mintha a feldolgozást csak egy, a második kódkönyvből (CB2) kiválasztott vektorral [dk(n)j végeznénk.
HU9503179A 1993-05-07 1994-04-20 Eljárás vektorkvantáláshoz, különösen beszédjelekhez HU216223B (hu)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4315315A DE4315315A1 (de) 1993-05-07 1993-05-07 Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen

Publications (3)

Publication Number Publication Date
HU9503179D0 HU9503179D0 (en) 1995-12-28
HUT73545A HUT73545A (en) 1996-08-28
HU216223B true HU216223B (hu) 1999-05-28

Family

ID=6487539

Family Applications (1)

Application Number Title Priority Date Filing Date
HU9503179A HU216223B (hu) 1993-05-07 1994-04-20 Eljárás vektorkvantáláshoz, különösen beszédjelekhez

Country Status (8)

Country Link
EP (1) EP0697125B1 (hu)
AU (1) AU681137B2 (hu)
DE (2) DE4315315A1 (hu)
DK (1) DK0697125T3 (hu)
ES (1) ES2136732T3 (hu)
FI (1) FI116597B (hu)
HU (1) HU216223B (hu)
WO (1) WO1994027286A1 (hu)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19538852A1 (de) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
GB2312360B (en) 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL94119A (en) * 1989-06-23 1996-06-18 Motorola Inc Digital voice recorder
JP3089769B2 (ja) * 1991-12-03 2000-09-18 日本電気株式会社 音声符号化装置

Also Published As

Publication number Publication date
HUT73545A (en) 1996-08-28
FI955325A0 (fi) 1995-11-06
FI116597B (fi) 2005-12-30
EP0697125A1 (de) 1996-02-21
ES2136732T3 (es) 1999-12-01
DK0697125T3 (da) 2000-01-24
HU9503179D0 (en) 1995-12-28
DE4315315A1 (de) 1994-11-10
WO1994027286A1 (de) 1994-11-24
AU681137B2 (en) 1997-08-21
DE59408495D1 (de) 1999-08-19
AU6502594A (en) 1994-12-12
EP0697125B1 (de) 1999-07-14
FI955325A (fi) 1995-11-06

Similar Documents

Publication Publication Date Title
EP0409239B1 (en) Speech coding/decoding method
US5602961A (en) Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US6385576B2 (en) Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
EP1202251A2 (en) Transcoder for prevention of tandem coding of speech
US5884251A (en) Voice coding and decoding method and device therefor
US5659659A (en) Speech compressor using trellis encoding and linear prediction
US5598504A (en) Speech coding system to reduce distortion through signal overlap
JP3357795B2 (ja) 音声符号化方法および装置
KR100421648B1 (ko) 음성코딩을 위한 적응성 표준
US6330531B1 (en) Comb codebook structure
US5633982A (en) Removal of swirl artifacts from celp-based speech coders
US5797119A (en) Comb filter speech coding with preselected excitation code vectors
HU216223B (hu) Eljárás vektorkvantáláshoz, különösen beszédjelekhez
KR100416363B1 (ko) 선형 예측 분석 대 합성 엔코딩 방법 및 엔코더
US7337110B2 (en) Structured VSELP codebook for low complexity search
US6397178B1 (en) Data organizational scheme for enhanced selection of gain parameters for speech coding
US7716045B2 (en) Method for quantifying an ultra low-rate speech coder
JP2800599B2 (ja) 基本周期符号化装置
US5826223A (en) Method for generating random code book of code-excited linear predictive coding
EP0483882B1 (en) Speech parameter encoding method capable of transmitting a spectrum parameter with a reduced number of bits
KR100341398B1 (ko) 씨이엘피형 보코더의 코드북 검색 방법
US6175817B1 (en) Method for vector quantizing speech signals
KR100718487B1 (ko) 디지털 음성 코더들에서의 고조파 잡음 가중
Gouvianakis et al. Advances in analysis by synthesis LPC speech coders
EP0755047B1 (en) Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits

Legal Events

Date Code Title Description
DGB9 Succession in title of applicant

Owner name: ROBERT BOSCH GMBH., DE