HU216557B

HU216557B - Vektorkódolási eljárás, különösen beszédhangjelek kódolására

Info

Publication number: HU216557B
Application number: HU9503180A
Authority: HU
Inventors: Jörg-Martin Müller; Bertram Wächter
Original assignee: Robert Bosch Gmbh.
Priority date: 1993-05-07
Filing date: 1994-04-20
Publication date: 1999-07-28
Also published as: DE59408863D1; FI955324A0; WO1994027285A1; PT697124E; DE4315313C2; FI955324A; ES2140533T3; HUT73533A; US5729654A; FI116596B; HU9503180D0; AU682505B2; DK0697124T3; DE4315313A1; EP0697124A1; AU6502694A; EP0697124B1

Abstract

A találmány tárgya vektőrkódőlási eljárás, különösen beszédhangjelekkódőlására. Az eljárás sőrán a kódkönyvben aűtőkőrrelációsegyütthatókat tárőlnak, amelyek egy gerjesztőszűrő impűlzűsvál szánakaűtőkőrrelációs függvényével összekapcsőlva a szűrt gerjesztőjelenergiáját adják meg. Tővábbi adatcsökkentés végett a kódkönyvbe csakőlyan értékeket visznek be, amelyeknek hárőm, a nűllától különbözőaűtőkőrrelációs együtthatójűk van. Az ezekből az együtthatókbólképezhető kőmbináció minták a kódkönyvben azőnős gyakőrisággalfőrdűlnak elő. Ezekkel az intézkedésekkel csökkentett tárfelhasználásés jelfeldőlgőzási ráfőrdítás mellett lehetséges a kódőlt adatőkzavarőkra messzemenően érzéketlen átvitele. ŕ

Description

A találmány tárgya vektorkódolási eljárás, különösen beszédhangjelek kódolására, amelyben predikciós kódoláshoz kódkönyvet alkalmaznak.

Beszédhangjelek kódolása végett - különösen mobil rádiótelefonos alkalmazásokra - a beszédhangjelet letapogatják, és szakaszokra (időszakaszokra) osztják fel. Mindegyik szakaszhoz a különböző fajta jelparaméterek számára predikciós értékeket képeznek. Ilyen jelparaméterek például, a beszédhangjel formánsszerkezetének (a beszédsáv rezonanciáinak) jellemzésére szolgáló rövid idejű paraméterek, és a beszédhangjel pitchszerkezetének (hangmagasságának) jellemzésére szolgáló hosszú idejű paraméterek (ANT Nachrichtentechnische Berichte, Heti 5, Nov.1988, 93-105. oldal). „Analízis szintézis útján” módszerrel végzett beszédhangkódoláskor a modell-paramétereket és gerjesztési paramétereket kvantálják, kódolják és a vevőhöz átviszik. A bitátviteli sebesség további csökkentésére vektorkvantálást alkalmaznak (lásd fentebb; DE/EP 0266620 Ti; EP 504627A2; EP 294020 A2).

Az ANT Nachrichtentechnische Berichte, Heflt 5, Nov.1988, 93-105. oldalából, és különösen a 102. oldal 2.oszlopa és a 103. oldal 2. oszlopa közötti részből ismeretes, hogy a kódkönywektor komponenseinek akár 90%-át is nullává lehet tenni anélkül, hogy a beszédminőség romlana. Ugyanott azt is javasolják, hogy a gerjesztési szekvenciák számát a beszédszintetizáláshoz szolgáló szűrőnél még erősebben korlátozzák oly módon, hogy az impulzusoknak (együtthatóknak) nemcsak a helyzetét, hanem kiegészítőleg az amplitúdóját is rögzített értékűnek válasszák. Eszerint rögzített gerjesztési kódkönyvet választanak, amelynek a vektorai négy, a nullától különböző elemet (vektorösszetevőt) tartalmaznak.

Találmányunk célja a bevezetőleg leírt jellegű eljárás olyan továbbfejlesztése, hogy csökkentett tárolási és jelfeldolgozási ráfordítás mellett olyan kódkönyvparaméterek álljanak rendelkezésre, amelyeknek kisebb a hibaérzékenysége, különösen zavart csatornákon történő átviteli célokra.

Ezt a feladatot a találmány értelmében úgy oldjuk meg, hogy egy első kódkönyvben szintetikus jeleket, különösen n számú, elsősorban 4, nullától különböző, az érték tekintetében egyenlő, és csak az előjelben eltérő amplitudóértékű beszédhangjeleket előállító geijesztőszűrő geijesztőjeleihez (vektoraihoz) szolgáló kombinációs minták, illetőleg az ezeknek az amplitúdóértékeknek a tárolásához szükséges címek kombinációs mintáit tároljuk el, és egy további kódkönyvben az ezekhez tartozó autokorrelációs együtthatókat tároljuk a következő lépésekben:

- a további kódkönyvben autokorrelációs együtthatókat tárolunk, amelyek a szintetikus jeleket, különösen beszédhangjeleket előállító gerjesztőszűrő impulzusválaszának autokorrelációs függvényével összekapcsolva, a szűrt gerjesztőjel energiáját adják meg,

- csak olyan kombinációs mintákat engedünk meg, amelyeknek három, a nullától különböző autokorrelációs együtthatójuk van,

- az AKF (0) korrelációs maximumon kívüli autokorrelációs együtthatók nullától különböző amplitúdóértékei csak előjelükben térnek el egymástól.

Előnyös módon csak azokat a nullától különböző autokorrelációs együtthatókat (AKF) tároljuk az első kódkönyvben, amelyek az AKF (0) korrelációs maximumon kívül vannak.

Minden lehetséges kombinációs mintához előnyös módon képezünk egy részkódkönyvet, és egy részkódkönyvbe csak a mindegyik részkódkönyvnél azonos kombinációs mintának az adott helyzetét vezetjük be.

A részkódkönyvek a kölcsönös megkülönböztetés végett előnyös módon egy kódszóval vannak jelölve.

A kombinációs mintákat előnyös módon négy, +1 és -1 amplitúdóértékű együtthatóból képezzük.

256 vektoros kódkönyvhossz esetén előnyös módon összesen 16 részkódkönyvet hozunk létre, amelyekbe 16 vektorra vonatkozó kombinációs mintát, soronként vezetünk be.

részkódkönyv helyett előnyös módon, csak 8 részkódkönyvet hozunk létre, és a többi 8 részkódkönyvet a 8 korábban létrehozott részkódkönyvből a bevezetett értékek előjelváltásával állítjuk elő.

A találmány szerinti eljárás a következő felismeréseken alapszik:

Az autokorrelációs együtthatókból képzett kombinációs mintákat nem kell tárolni. Elegendő, ha címüket, vagyis helyzetüket tároljuk. Ez jelentősen csökkenti a tárfelhasználást és a jelfeldolgozást. A kombinációs mintákat és ezek eloszlását elválasztva lehet átvinni. Mivel a beszédkódok érzékenyebben reagálnak az impulzusmintákra (az autokorrelációs együtthatókból kapott kombinációs mintákra), mint azok eloszlására (a vektorösszetevők elrendezésére), ezért zavart átvitel esetén jobb beszédminőséget kapunk. Ennek megfelelően a találmány szerinti eljárás, különösen rádiótelefonban alkalmazható előnyösen.

Találmányunkat annak példaképpeni foganatosítási módja kapcsán ismertetjük részletesebben ábráink segítségével, amelyek közül az

1. ábra a RELP-beszédhangjel-kódolás elvét ismertető vázlat, a

2. ábra az „analízis szintézis útján” módszerrel végzett beszédhangjel-kódolás elvi vázlata, a

3. ábra példa az autokorrelációs együttható, találmány szerinti kiválasztására, és a

4. ábra az impulzusminta eloszlását tároló részkódkönyvek példája.

Beszédhangjelek kis bitsebességű, például 2,4 kbit/s és 9,6 kbit/s közötti bitsebességű átviteléhez például, egy „analízis szintézis útján” elv szerinti RELP-beszédhangjel-kódokat alkalmazunk. A például a RELP (Residual Exciting Linear Prediction) elv szerinti beszédhangjelkódolást (ANT Nachrichtentechnische Berichte, Heft 5, Nov. 1988, 93-105. oldal) a találmány további megértése végett az 1. ábra kapcsán röviden ismertetjük. Egy időtartománybeli s(t) beszédhangjelet egy analóg/digitális átalakítóval digitalizálunk, majd analizálunk.

Ez az analízis a predikció funkcionális blokkban és a gerjesztésanalízis funkcionális blokkban megy végbe.

HU 216 557 Β

A beszéd redundanciájának megszüntetésére lineáris adaptív modellt alkalmazunk, amelyet alkalmas módon gerjesztünk. Csak a beszédszintézishez szükséges modell- és geijesztésparamétereket kvantáljuk, kódoljuk és visszük át a vevőhöz. A modellparaméterek meghatározásához az adóban a beszéd mintavételi értékek statisztikai függőségeit analizáljuk, és lineáris rövid idejű és adott esetben hosszú idejű predikcióval kiküszöböljük. A rövid idejű predikcióval a közvetlenül egymást követő mintavételi értékek közötti korrelációkat küszöböljük ki. Az egymástól távol lévő mintavételi értékek közötti korrelációkat (pitchszerkezet vagy hangmagasság) egy ezután következő hosszú idejű prediktor csökkenti. Az eredmény olyan digitális s(n) kimenőjel, amelyben lényegében már csak nemlineáris függőségek vannak, és amelynek az energiája az eredeti digitalizált s(n) beszédhangjel energiájához képest erősen csökkent. Az „analízis szintézis útján” módszernél a gerjesztőjel számítására az eredeti s(n) beszédhangjel és a szintetizált beszédhangjel, az s(n) kimenőjel közötti különbséget, az e(n) hibajelet alkalmazzuk (1. ábra).

Rövid, körülbelül 10...30 ms tartamú beszédszakaszokon belül a beszédet kvázistacionárius folyamatnak lehet tekinteni. Ez a kvázistacionáriusság lehetővé teszi prediktorok számítását, amelyeknek a paraméterei a beszédszakasz tartamára állandó értékeket vesznek fel. Egy 20 ms tartamú beszédszakaszt például kerettartamként rögzítünk. Ekkor 8 kHz mintavételi frekvencia esetén a prediktoregyütthatók adaptálásához keretenként 160 mintavételi érték áll rendelkezésre. A predikciós hibákat a predikciós hiba keretenként! energiájának minimálásával állapítjuk meg. Ezeknek a predikciós együtthatóknak a meghatározására, a számítási munka egyszerűsítése végett, a korrelációs módszert alkalmazzuk.

Az s(n) beszédhangjel analízise rövid idejű predikciós átviteli H_K ^_I(Z) függvény és hosszú idejű predikciós átviteli H_L-»(Z) függvény segítségével történik, melynek során e_K(n) rövid idejű predikciós hibajel, és e_L(n) hosszú idejű predikciós hibajel keletkezik. Az analízis során meghatározzuk a beszédszintézisszűrő a, és bj együtthatóit, valamint az M keresési tartományt, amelyeket a 2. ábrán a H_L(Z) H_K(Z) átviteli függvény tartalmaz. A szintézisszűrőhöz vezetett r(n) gerjesztőjelet vagy számítjuk, vagy a találmány értelmében egy kódkönyvből kiolvassuk. A szintézisszűrő s(n) kimenőjele a becsült beszédhangjel. Az eredeti s(n) beszédhangjellel összehasonlítva kapjuk az e(n) hibajelet, amit a W(Z) átviteli függvénnyel hallásfiziológiailag súlyozunk. A súlyozott e_w(n) hibajel energiáját ezután javított r(n) geijesztőjel megállapítására alkalmazzuk.

Az átviteli bitsebesség további csökkentésére vektorkvantálást alkalmazunk. A geijesztőjel kiszámítását L számú D dimenziójú geijesztővektorral helyettesítjük. Egy skálázási tényező segítségével mindegyik vektor energiáját a beszédhangjel energiájához illesztjük. Ezután a legkisebb hibaenergiájú vektor címét átviszik a vevőre. Minthogy a predikciós hibajel eloszlása jó közelítésben normális eloszlás, ezért a kódkönyvet normális eloszlású véletlen számokkal lehet kitölteni. Ennek az úgynevezett CELP-eljárásnak (Codebook

Excited Linear Prediction) az előnye többek között az, hogy a kódkönyvet nem kell „tanítani”. A ráfordítás tovább csökkenthető nullavektorokat tartalmazó kódkönywektorok alkalmazásával. A geijesztővektor számításához ekkor kevesebb számítási művelet szükséges. Az ANT Nachrichtentechnische Berichte, Heft 5, Nov.1988, 93-105. oldalán javasolták, hogy a kódkönywektorok minél több komponensét, például 90%át tegyük nullává (103. oldal, bal hasáb, utolsó bekezdés), és a geijesztési szekvenciák számát még erősebben korlátozzuk oly módon, hogy az együtthatók (impulzusok) helyzeteit rögzítjük és amplitúdóját állandó értéken tartjuk. Ott a kódkönyvhöz olyan vektorokat alkalmaznak, amelyek négy, nullától különböző elemet tartalmaznak.

A találmány értelmében ezeket a követelményeket a tárigény és a jelfeldolgozási ráfordítás javára tovább szigorítottuk: csak olyan vektorokat alkalmazunk, amelyeknek három, nullától különböző AKF autokorrelációs együtthatójuk van. Az AKF (0) korrelációs maximumon kívül lévő AKF autokorrelációs együtthatókat úgy választjuk meg, hogy csak előjelükben különbözzenek egymástól, vagyis amplitúdójuk egyenlő.

A 3. ábrán látható példa az ily módon kiválasztott AKF autokorrelációs együtthatókra n=4 impulzussal, vagyis amplitúdóbittel egy, például 40 mintavételi értéket tartalmazó kereten belül. Az AKF (0) korrelációs maximumnál a 4 amplitúdóérték adódik. Mivel ez az érték minden n-impulzusú impulzusmintánál állandó, nem kell tárolni. A nullától különböző többi impulzus amplitúdója 1. Az 5. mintavételi érték például +1, és a 15. mintavételi érték -1.

Az itt alkalmazott AKF autokorrelációs együtthatók úgy vannak definiálva, hogy egy szintetikus jeleket (beszédhangjeleket) előállító geijesztőszűrő impulzusválaszának autokorrelációs függvényével való összekapcsoláskor a szűrt geijesztőjel energiáját kapjuk.

Ezenkívül minden kombinációs mintára, amelyet ilyen AKF autokorrelációs együtthatókból képezünk, fennáll a követelmény, hogy a kódkönyvben azonos gyakorisággal szerepeljenek. Az utóbbi követelmény által egy 2^L teijedelmű kódkönyv n számú részkódkönyvre bontható, ha a geijesztőjelben n számú nullától különböző impulzus van megengedve, ami 2ⁿ lehetséges kombinációs mintának felel meg. Az n számú részkódkönyv mindegyikének teqedelme 2^L-ⁿ és csak azonos fajta impulzusmintákat tartalmaz. A 4. ábrán látható néhány a 2ⁿ= 16 (n=4) lehetséges részkódkönyv közül. Az impulzusminták (a +1 és -1 értékek sorrendjei) mindegyik részkódkönyvben egyenlők, csak az egyes impulzusok helyzete különböző. Az első részkódkönyvben az impulzusminta csak négy pozitív impulzusból, a második részkódkönyvben három pozitív és egy negatív impulzusból áll, stb. A kombinációs minták (impulzusminták) azonos gyakorisága lehetővé teszi, hogy a kombinációs mintákat az impulzusok eloszlásától (helyzetétől) elválasztva vigyük át. Magukat a kombinációs mintákat nem kell tárolni és átvinni. Elegendő, ha mind a tizenhat részkódkönyv az ismert kombinációs mintákkal a többi részkódkönyvtől megkülönböztethető. Ez a legegyszerűbben

HU 216 557 Β úgy valósítható meg, hogy mindegyik részkódkönyvhöz és ezzel az impulzusmintához más címet rendelünk hozzá, például az első részkódkönyvhöz a 0000 címet és a második részkódkönyvhöz a 0001 címet stb. (4 ábra). Az impulzusoknak a részkódkönyvekben elfoglalt helyzetéről is csak egy címet kell tárolni és átvinni.

részkódkönyv létrehozása helyett elegendő csak 8 részkódkönyvet - különböző kombinációs mintákkal - létrehozni (1-8. részkódkönyv). A 9-16. részkódkönyv a kombinációs mintákból egyszerű előjelváltással létrehozható. Például a 11 -1 -1 mintából a -1 -111 minta lesz.

Azzal, hogy az impulzusmintákat az impulzuseloszlástól elválasztjuk, a beszédátvitel-hibákra - különösen átviteli zavarok esetén - lényegében érzéketlenné válik, mivel a kodekek az impulzusmintákra érzékenyebben reagálnak, mint azok eloszlására. Az impulzusokat ezért, például csatornakódolás esetén, az átvitelhez magasabb hibavédelemmel lehet ellátni, mint az impulzusaik speciális helyzetére vonatkozó információt.

Claims

SZABADALMI IGÉNYPONTOK

1. Vektorkódolási eljárás, különösen beszédhangjelek kódolására, amelyben kódkönyveket alkalmazunk, és egy első kódkönyvben szintetikus jeleket, és különösen n számú, elsősorban 4, nullától különböző, az érték tekintetében egyenlő, és csak az előjelben eltérő amplitüdóértékű beszédhangjeleket előállító geijesztőszűrő geijesztőjeleihez (vektoraihoz) szolgáló kombinációs minták, illetőleg az ezeknek az amplitúdóértékeknek a tárolásához szükséges címek kombinációs mintái vannak tárolva, azzal jellemezve, hogy egy további kódkönyvben az ezekhez tartozó autokorrelációs együtthatókat tároljuk a következő lépésekben:

- a további kódkönyvben autokorrelációs együtthatókat tárolunk, amelyek a szintetikus jeleket, különösen beszédhangjeleket előállító geijesztőszűrő impulzusválaszának autokorrelációs függvényével összekapcsolva a szűrt geqesztő jelenergiáját adják meg,

- az AKF (0) korrelációs maximumon kívüli autokorrelációs együtthatók nullától különböző amplitudóértékei csak előjelükben térnek el egymástól.

2. Az 1. igénypont szerinti vektorkódolási eljárás, azzal jellemezve, hogy csak azokat a nullától különböző autokorrelációs együtthatókat tároljuk az első kódkönyvben, amelyek az AKF (0) korrelációs maximumon kívül vannak.

3. Az 1. vagy 2. igénypont szerinti vektorkódolási eljárás, azzal jellemezve, hogy minden lehetséges kombinációs mintához képezünk egy részkódkönyvet, és egy részkódkönyvbe csak a mindegyik részkódkönyvnél azonos kombinációs mintának az adott helyzetét vezetjük be.

4. A 3. igénypont szerinti vektorkódolási eljárás, azzaljellemezve, hogy a részkódkönyvek a kölcsönös megkülönböztetés végett egy kódszóval vannak jelölve.

5. A 3. vagy 4. igénypont egyike szerinti vektorkódolási eljárás, azzal jellemezve, hogy a kombinációs mintákat négy, +1 és -1 amplitúdóértékű együtthatóból képezzük.

6. A 3-5. igénypontok bármelyike szerinti vektorkódolási eljárás, azzal jellemezve, hogy 256 vektoros kódkönyvhossz esetén összesen 16 részkódkönyvet hozunk létre, amelyekbe 16 vektorra vonatkozó kombinációs mintát soronként vezetünk be.

7. A 6. igénypont szerinti vektorkódolási eljárás, azzal jellemezve, hogy 16 részkódkönyv helyett csak 8 részkódkönyvet hozunk létre, és a többi 8 részkódkönyvet a 8 korábban létrehozott részkódkönyvból a bevezetett értékek előjelváltásával állítjuk elő.