HU216223B

HU216223B - Eljárás vektorkvantáláshoz, különösen beszédjelekhez

Info

Publication number: HU216223B
Application number: HU9503179A
Authority: HU
Inventors: Jörg-Martin Müller; Bertram Wächter
Original assignee: Robert Bosch Gmbh.
Priority date: 1993-05-07
Filing date: 1994-04-20
Publication date: 1999-05-28
Also published as: HUT73545A; FI955325A0; FI116597B; EP0697125A1; ES2136732T3; DK0697125T3; HU9503179D0; DE4315315A1; WO1994027286A1; AU681137B2; DE59408495D1; AU6502594A; EP0697125B1; FI955325A

Abstract

A találmány tárgya eljárás letapőgatőtt jelértékek, különösenbeszédjelek vektőrkvantálására. A találmány szerinti eljáráskülönlegessége, hőgy egy első kódkönyvbe (CB1) rögzített vektőrőkatvesznek fel, egy másődik kódkönyvbe (CB2) meghatárőzőtt időtartam űtánaktűalizálandó vektőrőkat vesznek fel, majd a másődik kódkönyvből(CB2) legalább két őlyan vektőrt kiválasztanak, amelyek egy el remeghatárőzőtt hibakritériűm alapján a legjőbb predikciós értéketadják. A másődik kódkönyvből (CB2) kiválasztőtt legalább kettő vektőrtösszekapcsőlják az első kódkönyv (CB1) vektőraival, és az öszekapcsőlt vektőrők halmazából őptimális letapőgatási értékkéntkiválasztják azt a vektőrt, amely az első vagy egy tővábbihibakritériűm alapján a legkisebb távőlságra van az eredetiletapőgatőtt ért ktől. ŕ

Description

A találmány tárgya eljárás letapogatott jelértékek, különösen beszédjelek vektorkvantálására. A találmány szerinti eljárás során vektorkvantálás alkalmazásával letapogatott jelértékeket kódolunk.

A Speech Communication 8 (1989) című kiadvány 363-369. oldalán megismerhető egy olyan CELP beszédkódolási eljárás (Code Excited Linear Prediction), amelynél a kódolóparamétereket együttesen optimalizálják. Ezzel a módszerrel a gerjesztési kódkönyv hossza jelentősen csökkenthető a szekvenciális optimalizáláshoz képest.

A WO 91/01545 számú közzétételi iratból olyan beszédkódoló ismerhető meg, amelynél egy kódkönyvbe felvett gerjesztési vektorokat alkalmaznak arra a célra, hogy az eredeti letapogatott beszédjelet legjobban reprezentáló gerjesztési vektort állítsanak elő. A fenti irodalmi helyen leírt beszédkódolóban két gerjesztési vektort egy-egy kódkönyvből vesznek ki egy letapogatott érték leírásához. Ennél az eljárásnál először a hangmagasság (pitch) információtól függetlenül kiválasztanak és ortogonalizálnak egy első gerjesztővektort. A második gerjesztővektort hasonlóan választják ki. A második kódkönyvből kiválasztott második gerjesztővektor ortogonalizálásánál figyelembe veszik a keletkező és az első kódkönyvből kiválasztott első geijesztővektort is. Ezt a kiválasztási eljárást azután megismétlik a második kódkönyvből kiválasztott, ortogonalizált gerjesztőjellel is, abból a célból, hogy végül azonosítsák azokat a gerjesztővektorokat, amelyek legjobban egyeznek az eredeti letapogatott beszédjellel.

A jelen találmány célja, hogy úgy növelje az optimalizált letapogatási érték kiválasztásának a megbízhatóságát, hogy ugyanakkor ne növekedjen túlzottan a feldolgozási munka. Ezt a célt a találmány értelmében olyan eljárással valósítjuk meg, amely során

- egy első kódkönyvbe rögzített vektorokat veszünk fel,

- egy második kódkönyvbe meghatározott időtartam után aktualizálandó vektorokat veszünk fel,

- a második kódkönyvből legalább két olyan vektort kiválasztunk, amelyek egy előre meghatározott hibakritérium alapján a legjobb predikciós értéket adják,

- a második kódkönyvből kiválasztott legalább kettő vektort összekapcsoljuk az első kódkönyv vektoraival,

- az összekapcsolt vektorok halmazából optimális letapogatási értékként kiválasztjuk azt a vektort, amely az első vagy egy további hibakritérium alapján a legkisebb távolságra van az eredeti letapogatott értéktől.

A találmány a következő felismerésen alapul: Ha az ismert módszerekkel ellentétben [Speech Communication 8 (1989), 363-369. oldal vagy WO 91/01545] az adaptív (második) kódkönyvből egynél több olyan vektort állítunk elő az első (rögzített) kódkönyv összes vektorával való összekapcsoláshoz, amelynek minimális az eltérése, akkor növekszik ugyan a feldolgozási munkaráfordítás (számítási munka), de a letapogatott érték legkisebb hibával történő optimalizálásának megbízhatósága növekszik. Ez a megbízhatóságnövekedés a beszédjelek feldolgozásánál hangminőséget jelent. Tekintve, hogy az adaptív kódkönyvből való egynél több vektor figyelembevétele során a munkaráfordítás a lineárisnál lassabban növekszik, ezért a rögzített kódkönyv mérsékelt csökkentésével, például egy kódritkítással (keretritkítással) az US 5 487128 számú szabadalmi leírásban említett módon, illetve a fent említett Speech Communication 8 (1989) című kiadvány 363-369. oldalán található cikk által ismertetett eljárással elvégezve, a feldolgozási munka lényegében állandó szinten tartható, összehasonlítva a ritkítás nélküli kódkönyvvel végzett feldolgozási munkával. Tehát a találmány szerint a szokásos eljárásnál megszokott mértékű feldolgozási munkával jelentősen jobb hangminőség érhető el.

A találmányt részleteiben a mellékelt rajzok segítségével szemléltetett példaképpeni eljárás alapján ismertetjük, ahol az

1. ábra egy CELP kódoló struktúrája, és a

2. ábra egy módosított CELP kódoló struktúrája.

A találmány jobb érthetősége végett hivatkozunk még a Speech Communication 8 (1989) című kiadvány 363-369. oldalán közölt „Improving Performance of Code-Excited LPC Coders by Joint Optimization” (Kódgerjesztésű LPC kódolók teljesítményének javítása közös optimalizálással) című nyilvánosságra hozott irodalomra.

A CELP (Code-excited linear prediction) kódolók az olyan RELP (Residual Excited Linear Prediction) kódolókhoz tartoznak, amelyeknél a beszédjelek aktualizált értékeit tartalmazó szekvenciát egy, a beszédlétrehozást reprezentáló szűrővel állítják elő. Az aktualizálási szekvenciát egy kódkönyv segítségével állítják elő, amelyből a legjobb kódkönywektort egy úgynevezett „szintézis útján történő analízis” módszerrel választják ki. A legjobb kódkönywektor itt azt a vektort jelenti, amely a legjobban hasonlít az eredeti letapogatott beszédjelértékhez. Ezt a hasonlóságot egy előre megadott hibakritérium, például a legkisebb négyzetes eltérés alapján ítélik meg. A kódkönyvet kezdetben Gauss-eloszlású véletlen értékekkel töltik fel. Egy ilyen CELP kódoló logikai struktúráját szemlélteti az 1. ábra. Első lépésként az 1. ábrán a H_os(z) átviteli függvénnyel jellemzett, lineáris predikciós szűrő, röviden LP szűrő tárolójának járulékát kivonjuk a bemeneti s(n) letapogatott beszédjelértékből, és az így kapott jelet a W(z) átviteli fuggvényű szűrővel súlyozzuk. Az 1. és 2. ábrán δ(η) a H_os(0) átviteli függvénnyel jellemzett LP szűrő bemeneti értékeit, illetve a H_OL(z) átviteli függvénnyel jellemzett hangmagasság-predikciós szűrő (pitchprediction filter) bemeneti értékeit jelöli.

A második lépésben a H_OL(z) és H_w(z) átviteli függvényekkel jellemzett hangmagasság-predikciós szűrő (pitch-prediction filter) súlyozott tárolóértékének járulékát vonjuk ki. Végül a súlyozott e_w(n) hibajelet a H_L(z) és H_w(z) szűrőfuggvényekkel megszűrt η(η) kódkönywektor és az előtte megkapott s_w(n) jel közötti különbség képzésével kapjuk meg. Itt az η(η) értékek a CB kódkönyv vektorait jelölik, és Cj a megfelelő skálázást faktor.

HU 216 223 Β

Az e_w(n) hibajel energiája az összes kódolóparaméter függvénye lesz, például:

E=f(a_i,M,b_i,j,c_j), ahol a; az LP-szűrő együtthatói, ahol i= 1,2, ..., P_s,

M a hangmagasság periódusa, bj a hangmagasság-prediktor együtthatók, ahol i=l,2,..., P_L, j= 1,2,..., K_s a kódkönyv vektorai, és

Cj a megfelelő skálázási faktor.

A legjobb beszédhangminőség akkor érhető el, ha az összes fenti jelparamétert együtt optimalizáljuk. A következő optimalizálás során az aj LP-szűrő együtthatókat nem vesszük figyelembe, mivel ez gyakorlatilag nem realizálható számítási munkatöbblettel járna.

Az

E=f(M,bj,j,Cj) függvény minimalizálásával egy szuboptimális közelítés érhető el.

A p,

H_s(z)=(l-Ea_iz-ⁱ)i i = l átviteli függvénnyel jellemezhető lineáris predikciós szintézisszűrő a beszédspektrum formánsstruktúráját írja le. A H_s(z) szűrő hasonló szerkezetű, mint a H_os(z) LP szűrő. Az előbbinek a segítségével állítható elő a W(z) súlyfüggvény a

W(z)=H_s(Z/y)H_s(z) * összeüggés szerint, ahol 0<γ<1 a nem teljes geijesztés alapján egy spektrális zajkorlátozást jelent. A H_w(z) a H_s(z) lineáris predukciós szintézisszűrő és a W(z) súlyszűrő láncolásának eredményét adja:

H_w(z)=H_s(z) · W(z)

A hangmagasság-predikciós szűrőnek (pitch-prediktor szűrő) csak p_L= 1 helyen van leágazása, és a

H_L(z)=(l-bZ M)-i átviteli függvény írja le.

Az 1. ábrán jelzett H_w(z), H_L(z) és W(z) szűrők z ¹tárolócellái zérus értékűek. A hangmagasság-predikciós szűrő (pitch-prediktor szűrő) paramétereit mindig N_s letapogatási érték (subffame-tartalom) után, míg az LP szűrő paramétereit minden N letapogatási érték után aktualizáljuk. Feltételezve, hogy N>N_S, a pitch-predikciós szűrő eltávolítható a gerjesztési ágból az 1. ábrán, mivel n<N_sesetén nem befolyásolja a H_w(z) szűrő bemenetét.

A H_ol(z) átviteli fuggvényű hangmagasság-predikciós szűrőhöz tartozó tároló hatásának szemléltetéséhez az 1. ábrán részletesen bemutatjuk a tároló egyes z-> tárolócelláit és azok kapcsolódását. Az egyes z-* tárolócellákban tárolt értékeket l(k) jelképezi. Minden egyes M=k pitch-periódus paraméter egy másik d_k(n) vektort mint kimenőjelet generál a z ¹ tárolócella kimenetén kialakított késleltetővezeték kimenetén. K_L az M pitchperiódus megengedett tartományától függ. Jó választás az M értékére a 40 és 103 közötti tartomány. Ennek a tartománynak a lefedéséhez K_L=64 értéket kell választani.

Ezek az előfeltételek közvetlenül a 2. ábrán látható blokkvázlat kialakítását eredményezik.

A K_L számú különböző d_k(n) vektor (jel) felfogható úgy is, mintha azok egy kódkönyvben lennének össze10 fogva. Ebben az ábrázolásban nincsen különbség a CB1 kódkönyvet tartalmazó ág és a CB2 kódkönyvet tartalmazó ág struktúrájában. A CB2 kódkönyv d_k(n) vektorai az 1. ábrán látható H_0L(z) hangmagasság-predikciós szűrő (pitch-prediktor szűrő) tárolójának d_k(n) vektoraiból jöttek létre. Csak a két CB 1 és CB2 kódkönyv karakterisztikája különbözik: a gerjesztési CB1 kódkönyv rögzített, amelybe állandó rj(n) vektorokat veszünk fel. Ezzel szemben a pitch-paraméterekre jellemző d_k(n) vektorokat tartalmazó CB2 kódkönyv időfüggő (adaptív) kialakítású, mivel a szűrőtárolót minden subframe után módosítjuk. Ezeknek a paramétereknek az optimalizálásához nagyszámú (K_LK_S) különböző kombinációt kell végignézni, hogy megtaláljuk a minimális E hibaenergiát. Ezek a kombinációk egy K_LK_Shosszúságú kódkönyvnek felelnek meg, míg a szekvenciális optimalizálás egy kétlépcsős vektorkvantálásnak felel meg, ahol kettő K_L, illetve K_s hosszúságú CB1, CB2 kódkönyvvel operálunk.

A 2. ábrán látható blokkvázlat szerinti eljárásnál az E hibaenergia a j és k kódkönyvelemek száma és a Cj és b_k skálázási faktorok függvénye:

n_s

E(j ΛΛ,^)=[s_w(n) - [b_kd_k(n)+c_jr_j(n)*h_ra(n)]]²i = l ahol h₀₎(n) a súlyozott LP-szűrő impulzusválasza és * a konvolúciós szimbólum.

Az E hibaenergia minimalizálásához a skálázási faktoroknak a következő lineáris egyenletrendszert kell kielégíteniük:

<<Pk(n),p_k(n)> <p_k(n),q_j(n)>Vb_k^ /<p_k(n),s_w(n)» 'v<Pk(n),q_j(n)> <^(η),^(η)>^ ,' = ^l|_<<q_j(n)s_w(n)>

ahol

Pk(n)=d_k(n)*h_ffl(n), és q_j(n)=r_j(n)*h_ü)(n), valamint ^Ns <a₍„)An)^>= Σ ^a(ⁿ)^b(ⁿ)· i = l

A fenti összefüggések alapján a minimális hibaenergiára a következő összefüggést kapjuk:

E_min= <s_w(n),s_w(n)>-T(j,k,Cj,b_k)

Mivel egy subframe energiája állandó, szükségképpen a

T(j,k,c_j,b_k)=b_k<p_k(n),s_w(n)>+c_j<q_j(n),s_w(n)> kifejezést maximalizálni kell. Ezt a maximalizálást két lépésben hajtjuk végre:

- megoldjuk a lineáris egyenletrendszert,

- kiszámítjuk T(j,k,Cj,b_k) értékét.

Ezeket a lépéseket K_LK_s-szer kell végrehajtani. További egyszerűsítésekkel, például a vektorok körülbelül

90%-ának zérussá tételével, a DE 3834871 számú német szabadalmi iratban leírt módszerrel végzett inverz szűréssel, kizárólag olyan vektorok megengedésével, amelyeknek csak három, nullától különböző autokorrelációs együtthatója van, a számítási munka jelentősen csökkenthető.

A találmány értelmében és az eddig ismert eljárásokkal szemben a második CB2 kódkönyvből n>2, a példában n=2 legjobb vektort választjuk ki. (A legjobb vektor azt jelenti, hogy ezek a vektorok egy hibakritérium, pél60 dául a legkisebb négyzetes hiba alapján a legkisebb elté3

HU 216 223 Β rést, vagyis a legjobb predikciós értéket adják.) Ezt a két legjobb vektort ezután az első, rögzített vektorokat tartalmazó CB1 kódkönyv összes vektorával összekapcsoljuk az előbb ismertetett lineáris egyenletrendszer szerint. Az összekapcsolási halmazból kiválasztjuk az eredeti letapogatási értékhez képest az ugyanazon vagy egy további hibakritérium alapján a legkisebb hibaenergiát adó értékeket és például egy alacsony bit-adatátviteli sebességű átviteli csatornán történő továbbítás céljából előállítjuk az így kiválasztott értékeket.

Ha a második CB2 kódkönyvből kettőnél több legjobb vektort választunk ki, akkor az így megnövekedett feldolgozási munka jobb beszédhangminőséget eredményez. Ennek a jobb beszédhangminőségnek a csökkentése nélkül a feldolgozási munka úgy csökkenthető, hogy az első CB 1 kódkönyv tartalmát kiritkítjuk. Ezenkívül a feldolgozási munka a feldolgozandó kiválasztott vektorok számával nem nő lineárisan, mivel több, az első lépésben már kiszámított összekapcsolási értéket lehet hasznosítani.

A CB1 kódkönyv ritkítását előnyösen úgy lehet a beszédhangminőség romlása nélkül végrehajtani, hogy a ritkítandó halmazt két keretrész (subframe) vektorainak összegbitjeiből választjuk ki, amelyekből előnyösen éppen annyi bitet nyomunk el, hogy a feldolgozási munka körülbelül ugyanakkora legyen, mintha a második CB2 kódkönyvből csak egy kiválasztott legjobb vektort dolgoztunk volna fel. A kódkönyvritkítást (thinning) ismerteti többek között az US 5,487,128 számú irat, és nem képezi a jelen találmány tárgyát.

Claims

1. Eljárás letapogatott jelértékek, különösen beszédjelek vektorkvantálására, azzal jellemezve, hogy

- egy első kódkönyvbe (CB1) rögzített vektorokat [rj(n)j veszünk fel,

- egy második kódkönyvbe (CB2) meghatározott időtartam után aktualizálandó vektorokat [d_k(n)] veszünk fel,

- a második kódkönyvből (CB2) legalább két olyan vektort [d_k(n)] kiválasztunk, amelyek egy előre meghatározott hibakritérium alapján a legjobb predikciós értéket adják,

- a második kódkönyvből (CB2) kiválasztott legalább kettő vektort [d_k(n)] összekapcsoljuk az első kódkönyv (CB1) vektoraival [η(η)],

- az összekapcsolt vektorok halmazából optimális letapogatási értékként kiválasztjuk azt a vektort, amely az első vagy egy további hibakritérium alapján a legkisebb távolságra van az eredeti letapogatott értéktől [s(n)].

2. Az 1. igénypont szerinti eljárás, azzal jellemezve, hogy az első kódkönyvbe (CB1) beszédpredikcióhoz használt LP-szűrő gerjesztési vektorait [η(η)] veszszük fel.

3. Az 1. vagy 2. igénypont szerinti eljárás, azzal jellemezve, hgoy a második kódkönyvbe (CB2) egy hangmagasság(pitch)-szintézis szűrő gerjesztési vektorait [d_k(n)j vesszük fel.

4. Az 1-3. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy az első kódkönyvbe (CB1) felvett vektorokat [η(η)] ritkítjuk.

5. Az 1-4. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy minden, az első kódkönyvbe (CB1) felvett vektorhoz [η(η)] meghatározunk minden olyan eltérést az eredeti letapogatási értéktől [s(n)], amely figyelembe veszi a második kódkönyvből (CB2) kiválasztott legalább kettő, predikciós értéket és/vagy pitch-prediktor értéket jellemző kódkönywektort [d_k(n)j.

6. A 4. vagy 5. igénypont szerinti eljárás, azzal jellemezve, hogy az első kódkönyv (CB1) ritkításához elnyomjuk azokat a vektorkomponenseket, amelyek a beszédjel felosztására használt két keretrészek összegbitjeiből származnak.

7. A 4-6. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy az első kódkönyvet (CB1) olyan mértékben ritkítjuk, hogy a feldolgozási munkaráfordítás lényegében akkora legyen, mintha a feldolgozást csak egy, a második kódkönyvből (CB2) kiválasztott vektorral [d_k(n)j végeznénk.