HU216223B - Eljárás vektorkvantáláshoz, különösen beszédjelekhez - Google Patents
Eljárás vektorkvantáláshoz, különösen beszédjelekhez Download PDFInfo
- Publication number
- HU216223B HU216223B HU9503179A HU9503179A HU216223B HU 216223 B HU216223 B HU 216223B HU 9503179 A HU9503179 A HU 9503179A HU 9503179 A HU9503179 A HU 9503179A HU 216223 B HU216223 B HU 216223B
- Authority
- HU
- Hungary
- Prior art keywords
- codebook
- vectors
- vector
- value
- pitch
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013139 quantization Methods 0.000 title claims abstract description 6
- 230000005284 excitation Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 230000009193 crawling Effects 0.000 abstract 2
- 241000282994 Cervidae Species 0.000 abstract 1
- 230000007547 defect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 210000000352 storage cell Anatomy 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
- G10L2019/0014—Selection criteria for distances
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
A találmány tárgya eljárás letapőgatőtt jelértékek, különösenbeszédjelek vektőrkvantálására. A találmány szerinti eljáráskülönlegessége, hőgy egy első kódkönyvbe (CB1) rögzített vektőrőkatvesznek fel, egy másődik kódkönyvbe (CB2) meghatárőzőtt időtartam űtánaktűalizálandó vektőrőkat vesznek fel, majd a másődik kódkönyvből(CB2) legalább két őlyan vektőrt kiválasztanak, amelyek egy el remeghatárőzőtt hibakritériűm alapján a legjőbb predikciós értéketadják. A másődik kódkönyvből (CB2) kiválasztőtt legalább kettő vektőrtösszekapcsőlják az első kódkönyv (CB1) vektőraival, és az öszekapcsőlt vektőrők halmazából őptimális letapőgatási értékkéntkiválasztják azt a vektőrt, amely az első vagy egy tővábbihibakritériűm alapján a legkisebb távőlságra van az eredetiletapőgatőtt ért ktől. ŕ
Description
A találmány tárgya eljárás letapogatott jelértékek, különösen beszédjelek vektorkvantálására. A találmány szerinti eljárás során vektorkvantálás alkalmazásával letapogatott jelértékeket kódolunk.
A Speech Communication 8 (1989) című kiadvány 363-369. oldalán megismerhető egy olyan CELP beszédkódolási eljárás (Code Excited Linear Prediction), amelynél a kódolóparamétereket együttesen optimalizálják. Ezzel a módszerrel a gerjesztési kódkönyv hossza jelentősen csökkenthető a szekvenciális optimalizáláshoz képest.
A WO 91/01545 számú közzétételi iratból olyan beszédkódoló ismerhető meg, amelynél egy kódkönyvbe felvett gerjesztési vektorokat alkalmaznak arra a célra, hogy az eredeti letapogatott beszédjelet legjobban reprezentáló gerjesztési vektort állítsanak elő. A fenti irodalmi helyen leírt beszédkódolóban két gerjesztési vektort egy-egy kódkönyvből vesznek ki egy letapogatott érték leírásához. Ennél az eljárásnál először a hangmagasság (pitch) információtól függetlenül kiválasztanak és ortogonalizálnak egy első gerjesztővektort. A második gerjesztővektort hasonlóan választják ki. A második kódkönyvből kiválasztott második gerjesztővektor ortogonalizálásánál figyelembe veszik a keletkező és az első kódkönyvből kiválasztott első geijesztővektort is. Ezt a kiválasztási eljárást azután megismétlik a második kódkönyvből kiválasztott, ortogonalizált gerjesztőjellel is, abból a célból, hogy végül azonosítsák azokat a gerjesztővektorokat, amelyek legjobban egyeznek az eredeti letapogatott beszédjellel.
A jelen találmány célja, hogy úgy növelje az optimalizált letapogatási érték kiválasztásának a megbízhatóságát, hogy ugyanakkor ne növekedjen túlzottan a feldolgozási munka. Ezt a célt a találmány értelmében olyan eljárással valósítjuk meg, amely során
- egy első kódkönyvbe rögzített vektorokat veszünk fel,
- egy második kódkönyvbe meghatározott időtartam után aktualizálandó vektorokat veszünk fel,
- a második kódkönyvből legalább két olyan vektort kiválasztunk, amelyek egy előre meghatározott hibakritérium alapján a legjobb predikciós értéket adják,
- a második kódkönyvből kiválasztott legalább kettő vektort összekapcsoljuk az első kódkönyv vektoraival,
- az összekapcsolt vektorok halmazából optimális letapogatási értékként kiválasztjuk azt a vektort, amely az első vagy egy további hibakritérium alapján a legkisebb távolságra van az eredeti letapogatott értéktől.
A találmány a következő felismerésen alapul: Ha az ismert módszerekkel ellentétben [Speech Communication 8 (1989), 363-369. oldal vagy WO 91/01545] az adaptív (második) kódkönyvből egynél több olyan vektort állítunk elő az első (rögzített) kódkönyv összes vektorával való összekapcsoláshoz, amelynek minimális az eltérése, akkor növekszik ugyan a feldolgozási munkaráfordítás (számítási munka), de a letapogatott érték legkisebb hibával történő optimalizálásának megbízhatósága növekszik. Ez a megbízhatóságnövekedés a beszédjelek feldolgozásánál hangminőséget jelent. Tekintve, hogy az adaptív kódkönyvből való egynél több vektor figyelembevétele során a munkaráfordítás a lineárisnál lassabban növekszik, ezért a rögzített kódkönyv mérsékelt csökkentésével, például egy kódritkítással (keretritkítással) az US 5 487128 számú szabadalmi leírásban említett módon, illetve a fent említett Speech Communication 8 (1989) című kiadvány 363-369. oldalán található cikk által ismertetett eljárással elvégezve, a feldolgozási munka lényegében állandó szinten tartható, összehasonlítva a ritkítás nélküli kódkönyvvel végzett feldolgozási munkával. Tehát a találmány szerint a szokásos eljárásnál megszokott mértékű feldolgozási munkával jelentősen jobb hangminőség érhető el.
A találmányt részleteiben a mellékelt rajzok segítségével szemléltetett példaképpeni eljárás alapján ismertetjük, ahol az
1. ábra egy CELP kódoló struktúrája, és a
2. ábra egy módosított CELP kódoló struktúrája.
A találmány jobb érthetősége végett hivatkozunk még a Speech Communication 8 (1989) című kiadvány 363-369. oldalán közölt „Improving Performance of Code-Excited LPC Coders by Joint Optimization” (Kódgerjesztésű LPC kódolók teljesítményének javítása közös optimalizálással) című nyilvánosságra hozott irodalomra.
A CELP (Code-excited linear prediction) kódolók az olyan RELP (Residual Excited Linear Prediction) kódolókhoz tartoznak, amelyeknél a beszédjelek aktualizált értékeit tartalmazó szekvenciát egy, a beszédlétrehozást reprezentáló szűrővel állítják elő. Az aktualizálási szekvenciát egy kódkönyv segítségével állítják elő, amelyből a legjobb kódkönywektort egy úgynevezett „szintézis útján történő analízis” módszerrel választják ki. A legjobb kódkönywektor itt azt a vektort jelenti, amely a legjobban hasonlít az eredeti letapogatott beszédjelértékhez. Ezt a hasonlóságot egy előre megadott hibakritérium, például a legkisebb négyzetes eltérés alapján ítélik meg. A kódkönyvet kezdetben Gauss-eloszlású véletlen értékekkel töltik fel. Egy ilyen CELP kódoló logikai struktúráját szemlélteti az 1. ábra. Első lépésként az 1. ábrán a Hos(z) átviteli függvénnyel jellemzett, lineáris predikciós szűrő, röviden LP szűrő tárolójának járulékát kivonjuk a bemeneti s(n) letapogatott beszédjelértékből, és az így kapott jelet a W(z) átviteli fuggvényű szűrővel súlyozzuk. Az 1. és 2. ábrán δ(η) a Hos(0) átviteli függvénnyel jellemzett LP szűrő bemeneti értékeit, illetve a HOL(z) átviteli függvénnyel jellemzett hangmagasság-predikciós szűrő (pitchprediction filter) bemeneti értékeit jelöli.
A második lépésben a HOL(z) és Hw(z) átviteli függvényekkel jellemzett hangmagasság-predikciós szűrő (pitch-prediction filter) súlyozott tárolóértékének járulékát vonjuk ki. Végül a súlyozott ew(n) hibajelet a HL(z) és Hw(z) szűrőfuggvényekkel megszűrt η(η) kódkönywektor és az előtte megkapott sw(n) jel közötti különbség képzésével kapjuk meg. Itt az η(η) értékek a CB kódkönyv vektorait jelölik, és Cj a megfelelő skálázást faktor.
HU 216 223 Β
Az ew(n) hibajel energiája az összes kódolóparaméter függvénye lesz, például:
E=f(ai,M,bi,j,cj), ahol a; az LP-szűrő együtthatói, ahol i= 1,2, ..., Ps,
M a hangmagasság periódusa, bj a hangmagasság-prediktor együtthatók, ahol i=l,2,..., PL, j= 1,2,..., Ks a kódkönyv vektorai, és
Cj a megfelelő skálázási faktor.
A legjobb beszédhangminőség akkor érhető el, ha az összes fenti jelparamétert együtt optimalizáljuk. A következő optimalizálás során az aj LP-szűrő együtthatókat nem vesszük figyelembe, mivel ez gyakorlatilag nem realizálható számítási munkatöbblettel járna.
Az
E=f(M,bj,j,Cj) függvény minimalizálásával egy szuboptimális közelítés érhető el.
A p,
Hs(z)=(l-Eaiz-i)i i = l átviteli függvénnyel jellemezhető lineáris predikciós szintézisszűrő a beszédspektrum formánsstruktúráját írja le. A Hs(z) szűrő hasonló szerkezetű, mint a Hos(z) LP szűrő. Az előbbinek a segítségével állítható elő a W(z) súlyfüggvény a
W(z)=Hs(Z/y)Hs(z) * összeüggés szerint, ahol 0<γ<1 a nem teljes geijesztés alapján egy spektrális zajkorlátozást jelent. A Hw(z) a Hs(z) lineáris predukciós szintézisszűrő és a W(z) súlyszűrő láncolásának eredményét adja:
Hw(z)=Hs(z) · W(z)
A hangmagasság-predikciós szűrőnek (pitch-prediktor szűrő) csak pL= 1 helyen van leágazása, és a
HL(z)=(l-bZ M)-i átviteli függvény írja le.
Az 1. ábrán jelzett Hw(z), HL(z) és W(z) szűrők z 1 tárolócellái zérus értékűek. A hangmagasság-predikciós szűrő (pitch-prediktor szűrő) paramétereit mindig Ns letapogatási érték (subffame-tartalom) után, míg az LP szűrő paramétereit minden N letapogatási érték után aktualizáljuk. Feltételezve, hogy N>NS, a pitch-predikciós szűrő eltávolítható a gerjesztési ágból az 1. ábrán, mivel n<Ns esetén nem befolyásolja a Hw(z) szűrő bemenetét.
A Hol(z) átviteli fuggvényű hangmagasság-predikciós szűrőhöz tartozó tároló hatásának szemléltetéséhez az 1. ábrán részletesen bemutatjuk a tároló egyes z-> tárolócelláit és azok kapcsolódását. Az egyes z-* tárolócellákban tárolt értékeket l(k) jelképezi. Minden egyes M=k pitch-periódus paraméter egy másik dk(n) vektort mint kimenőjelet generál a z 1 tárolócella kimenetén kialakított késleltetővezeték kimenetén. KL az M pitchperiódus megengedett tartományától függ. Jó választás az M értékére a 40 és 103 közötti tartomány. Ennek a tartománynak a lefedéséhez KL=64 értéket kell választani.
Ezek az előfeltételek közvetlenül a 2. ábrán látható blokkvázlat kialakítását eredményezik.
A KL számú különböző dk(n) vektor (jel) felfogható úgy is, mintha azok egy kódkönyvben lennének össze10 fogva. Ebben az ábrázolásban nincsen különbség a CB1 kódkönyvet tartalmazó ág és a CB2 kódkönyvet tartalmazó ág struktúrájában. A CB2 kódkönyv dk(n) vektorai az 1. ábrán látható H0L(z) hangmagasság-predikciós szűrő (pitch-prediktor szűrő) tárolójának dk(n) vektoraiból jöttek létre. Csak a két CB 1 és CB2 kódkönyv karakterisztikája különbözik: a gerjesztési CB1 kódkönyv rögzített, amelybe állandó rj(n) vektorokat veszünk fel. Ezzel szemben a pitch-paraméterekre jellemző dk(n) vektorokat tartalmazó CB2 kódkönyv időfüggő (adaptív) kialakítású, mivel a szűrőtárolót minden subframe után módosítjuk. Ezeknek a paramétereknek az optimalizálásához nagyszámú (KLKS) különböző kombinációt kell végignézni, hogy megtaláljuk a minimális E hibaenergiát. Ezek a kombinációk egy KLKS hosszúságú kódkönyvnek felelnek meg, míg a szekvenciális optimalizálás egy kétlépcsős vektorkvantálásnak felel meg, ahol kettő KL, illetve Ks hosszúságú CB1, CB2 kódkönyvvel operálunk.
A 2. ábrán látható blokkvázlat szerinti eljárásnál az E hibaenergia a j és k kódkönyvelemek száma és a Cj és bk skálázási faktorok függvénye:
ns
E(j ΛΛ,^)=[sw(n) - [bkdk(n)+cjrj(n)*hra(n)]]2 i = l ahol h0)(n) a súlyozott LP-szűrő impulzusválasza és * a konvolúciós szimbólum.
Az E hibaenergia minimalizálásához a skálázási faktoroknak a következő lineáris egyenletrendszert kell kielégíteniük:
<<Pk(n),pk(n)> <pk(n),qj(n)>Vbk^ /<pk(n),sw(n)» 'v<Pk(n),qj(n)> <^(η),^(η)>^ ,' = l|<<qj(n)sw(n)>
ahol
Pk(n)=dk(n)*hffl(n), és qj(n)=rj(n)*hü)(n), valamint Ns <a(„)An)>= Σ a(n)b(n)· i = l
A fenti összefüggések alapján a minimális hibaenergiára a következő összefüggést kapjuk:
Emin= <sw(n),sw(n)>-T(j,k,Cj,bk)
Mivel egy subframe energiája állandó, szükségképpen a
T(j,k,cj,bk)=bk<pk(n),sw(n)>+cj<qj(n),sw(n)> kifejezést maximalizálni kell. Ezt a maximalizálást két lépésben hajtjuk végre:
- megoldjuk a lineáris egyenletrendszert,
- kiszámítjuk T(j,k,Cj,bk) értékét.
Ezeket a lépéseket KLKs-szer kell végrehajtani. További egyszerűsítésekkel, például a vektorok körülbelül
90%-ának zérussá tételével, a DE 3834871 számú német szabadalmi iratban leírt módszerrel végzett inverz szűréssel, kizárólag olyan vektorok megengedésével, amelyeknek csak három, nullától különböző autokorrelációs együtthatója van, a számítási munka jelentősen csökkenthető.
A találmány értelmében és az eddig ismert eljárásokkal szemben a második CB2 kódkönyvből n>2, a példában n=2 legjobb vektort választjuk ki. (A legjobb vektor azt jelenti, hogy ezek a vektorok egy hibakritérium, pél60 dául a legkisebb négyzetes hiba alapján a legkisebb elté3
HU 216 223 Β rést, vagyis a legjobb predikciós értéket adják.) Ezt a két legjobb vektort ezután az első, rögzített vektorokat tartalmazó CB1 kódkönyv összes vektorával összekapcsoljuk az előbb ismertetett lineáris egyenletrendszer szerint. Az összekapcsolási halmazból kiválasztjuk az eredeti letapogatási értékhez képest az ugyanazon vagy egy további hibakritérium alapján a legkisebb hibaenergiát adó értékeket és például egy alacsony bit-adatátviteli sebességű átviteli csatornán történő továbbítás céljából előállítjuk az így kiválasztott értékeket.
Ha a második CB2 kódkönyvből kettőnél több legjobb vektort választunk ki, akkor az így megnövekedett feldolgozási munka jobb beszédhangminőséget eredményez. Ennek a jobb beszédhangminőségnek a csökkentése nélkül a feldolgozási munka úgy csökkenthető, hogy az első CB 1 kódkönyv tartalmát kiritkítjuk. Ezenkívül a feldolgozási munka a feldolgozandó kiválasztott vektorok számával nem nő lineárisan, mivel több, az első lépésben már kiszámított összekapcsolási értéket lehet hasznosítani.
A CB1 kódkönyv ritkítását előnyösen úgy lehet a beszédhangminőség romlása nélkül végrehajtani, hogy a ritkítandó halmazt két keretrész (subframe) vektorainak összegbitjeiből választjuk ki, amelyekből előnyösen éppen annyi bitet nyomunk el, hogy a feldolgozási munka körülbelül ugyanakkora legyen, mintha a második CB2 kódkönyvből csak egy kiválasztott legjobb vektort dolgoztunk volna fel. A kódkönyvritkítást (thinning) ismerteti többek között az US 5,487,128 számú irat, és nem képezi a jelen találmány tárgyát.
Claims (7)
1. Eljárás letapogatott jelértékek, különösen beszédjelek vektorkvantálására, azzal jellemezve, hogy
- egy első kódkönyvbe (CB1) rögzített vektorokat [rj(n)j veszünk fel,
- egy második kódkönyvbe (CB2) meghatározott időtartam után aktualizálandó vektorokat [dk(n)] veszünk fel,
- a második kódkönyvből (CB2) legalább két olyan vektort [dk(n)] kiválasztunk, amelyek egy előre meghatározott hibakritérium alapján a legjobb predikciós értéket adják,
- a második kódkönyvből (CB2) kiválasztott legalább kettő vektort [dk(n)] összekapcsoljuk az első kódkönyv (CB1) vektoraival [η(η)],
- az összekapcsolt vektorok halmazából optimális letapogatási értékként kiválasztjuk azt a vektort, amely az első vagy egy további hibakritérium alapján a legkisebb távolságra van az eredeti letapogatott értéktől [s(n)].
2. Az 1. igénypont szerinti eljárás, azzal jellemezve, hogy az első kódkönyvbe (CB1) beszédpredikcióhoz használt LP-szűrő gerjesztési vektorait [η(η)] veszszük fel.
3. Az 1. vagy 2. igénypont szerinti eljárás, azzal jellemezve, hgoy a második kódkönyvbe (CB2) egy hangmagasság(pitch)-szintézis szűrő gerjesztési vektorait [dk(n)j vesszük fel.
4. Az 1-3. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy az első kódkönyvbe (CB1) felvett vektorokat [η(η)] ritkítjuk.
5. Az 1-4. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy minden, az első kódkönyvbe (CB1) felvett vektorhoz [η(η)] meghatározunk minden olyan eltérést az eredeti letapogatási értéktől [s(n)], amely figyelembe veszi a második kódkönyvből (CB2) kiválasztott legalább kettő, predikciós értéket és/vagy pitch-prediktor értéket jellemző kódkönywektort [dk(n)j.
6. A 4. vagy 5. igénypont szerinti eljárás, azzal jellemezve, hogy az első kódkönyv (CB1) ritkításához elnyomjuk azokat a vektorkomponenseket, amelyek a beszédjel felosztására használt két keretrészek összegbitjeiből származnak.
7. A 4-6. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy az első kódkönyvet (CB1) olyan mértékben ritkítjuk, hogy a feldolgozási munkaráfordítás lényegében akkora legyen, mintha a feldolgozást csak egy, a második kódkönyvből (CB2) kiválasztott vektorral [dk(n)j végeznénk.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4315315A DE4315315A1 (de) | 1993-05-07 | 1993-05-07 | Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen |
Publications (3)
Publication Number | Publication Date |
---|---|
HU9503179D0 HU9503179D0 (en) | 1995-12-28 |
HUT73545A HUT73545A (en) | 1996-08-28 |
HU216223B true HU216223B (hu) | 1999-05-28 |
Family
ID=6487539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
HU9503179A HU216223B (hu) | 1993-05-07 | 1994-04-20 | Eljárás vektorkvantáláshoz, különösen beszédjelekhez |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP0697125B1 (hu) |
AU (1) | AU681137B2 (hu) |
DE (2) | DE4315315A1 (hu) |
DK (1) | DK0697125T3 (hu) |
ES (1) | ES2136732T3 (hu) |
FI (1) | FI116597B (hu) |
HU (1) | HU216223B (hu) |
WO (1) | WO1994027286A1 (hu) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19538852A1 (de) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
US5781881A (en) * | 1995-10-19 | 1998-07-14 | Deutsche Telekom Ag | Variable-subframe-length speech-coding classes derived from wavelet-transform parameters |
US5867814A (en) * | 1995-11-17 | 1999-02-02 | National Semiconductor Corporation | Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method |
GB2312360B (en) | 1996-04-12 | 2001-01-24 | Olympus Optical Co | Voice signal coding apparatus |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL94119A (en) * | 1989-06-23 | 1996-06-18 | Motorola Inc | Digital voice recorder |
JP3089769B2 (ja) * | 1991-12-03 | 2000-09-18 | 日本電気株式会社 | 音声符号化装置 |
-
1993
- 1993-05-07 DE DE4315315A patent/DE4315315A1/de not_active Withdrawn
-
1994
- 1994-04-20 DE DE59408495T patent/DE59408495D1/de not_active Expired - Lifetime
- 1994-04-20 ES ES94912472T patent/ES2136732T3/es not_active Expired - Lifetime
- 1994-04-20 HU HU9503179A patent/HU216223B/hu unknown
- 1994-04-20 AU AU65025/94A patent/AU681137B2/en not_active Expired
- 1994-04-20 DK DK94912472T patent/DK0697125T3/da active
- 1994-04-20 WO PCT/DE1994/000435 patent/WO1994027286A1/de active IP Right Grant
- 1994-04-20 EP EP94912472A patent/EP0697125B1/de not_active Expired - Lifetime
-
1995
- 1995-11-06 FI FI955325A patent/FI116597B/fi not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
HUT73545A (en) | 1996-08-28 |
FI955325A0 (fi) | 1995-11-06 |
FI116597B (fi) | 2005-12-30 |
EP0697125A1 (de) | 1996-02-21 |
ES2136732T3 (es) | 1999-12-01 |
DK0697125T3 (da) | 2000-01-24 |
HU9503179D0 (en) | 1995-12-28 |
DE4315315A1 (de) | 1994-11-10 |
WO1994027286A1 (de) | 1994-11-24 |
AU681137B2 (en) | 1997-08-21 |
DE59408495D1 (de) | 1999-08-19 |
AU6502594A (en) | 1994-12-12 |
EP0697125B1 (de) | 1999-07-14 |
FI955325A (fi) | 1995-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0409239B1 (en) | Speech coding/decoding method | |
US5602961A (en) | Method and apparatus for speech compression using multi-mode code excited linear predictive coding | |
US6385576B2 (en) | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch | |
EP1202251A2 (en) | Transcoder for prevention of tandem coding of speech | |
US5884251A (en) | Voice coding and decoding method and device therefor | |
US5659659A (en) | Speech compressor using trellis encoding and linear prediction | |
US5598504A (en) | Speech coding system to reduce distortion through signal overlap | |
JP3357795B2 (ja) | 音声符号化方法および装置 | |
KR100421648B1 (ko) | 음성코딩을 위한 적응성 표준 | |
US6330531B1 (en) | Comb codebook structure | |
US5633982A (en) | Removal of swirl artifacts from celp-based speech coders | |
US5797119A (en) | Comb filter speech coding with preselected excitation code vectors | |
HU216223B (hu) | Eljárás vektorkvantáláshoz, különösen beszédjelekhez | |
KR100416363B1 (ko) | 선형 예측 분석 대 합성 엔코딩 방법 및 엔코더 | |
US7337110B2 (en) | Structured VSELP codebook for low complexity search | |
US6397178B1 (en) | Data organizational scheme for enhanced selection of gain parameters for speech coding | |
US7716045B2 (en) | Method for quantifying an ultra low-rate speech coder | |
JP2800599B2 (ja) | 基本周期符号化装置 | |
US5826223A (en) | Method for generating random code book of code-excited linear predictive coding | |
EP0483882B1 (en) | Speech parameter encoding method capable of transmitting a spectrum parameter with a reduced number of bits | |
KR100341398B1 (ko) | 씨이엘피형 보코더의 코드북 검색 방법 | |
US6175817B1 (en) | Method for vector quantizing speech signals | |
KR100718487B1 (ko) | 디지털 음성 코더들에서의 고조파 잡음 가중 | |
Gouvianakis et al. | Advances in analysis by synthesis LPC speech coders | |
EP0755047B1 (en) | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
DGB9 | Succession in title of applicant |
Owner name: ROBERT BOSCH GMBH., DE |