HU213592B

HU213592B - Coding methods for digital audio signals

Info

Publication number: HU213592B
Application number: HU9203759A
Authority: HU
Inventors: Kenzo Akagiri; Akira Koike
Original assignee: Sony Corp
Priority date: 1991-03-29
Filing date: 1992-02-28
Publication date: 1997-08-28
Also published as: BR9204799A; EP0531538B1; DK0531538T3; AU1338392A; CA2083709A1; EP0531538A4; FI925400A; CS92692A3; PL294003A2; ATE165198T1; HU9203759D0; CN1065565A; EP0531538A1; AU654533B2; KR100312664B1; NO924552D0; NO924552L; DE69225100D1; RU2090973C1; DE69225100T2

Description

A találmány tárgya kódolási eljárás digitális audiojelekhez, komprimált jel előállítására, aminek során egy bemenő digitális jelből spektrális jelösszetevőket származtatunk, és a spektrális jelösszetevőket kritikus sávokba osztjuk.

Az audiojelek hatékony kódolására ismert olyan kódolási technika, ami bithozzárendelésen alapszik. Az audiojelet több csatornába, jelösszetevőkre osztják, időalapon vagy frekvencia alapon, és minden csatornához adaptív módon egy bizonyos bitszámot rendelnek hozzá. Egy a fent említett bithozzárendelésen alapuló kódolási technika az jólismert sávra osztó kódolás (részsávos kódolás, SBC), aminek során az időalapú audiojelet több frekvenciasávba, jelösszetevökre osztják kódolás végett; az adaptív transzformációs kódolás (ATC), aminek során az időalapú jelet frekvencialapú jellé transzformálják (ortogonálisán transzformálják), több frekvenciasávba jelösszetevőkre osztják a megfelelő sávok adaptív kódolása végett; az úgynevezett adaptív bithozzárendeléses adaptív prediktív kódolás (APC-AB), aminek során a részsávos kódolást (SBC) és az úgynevezett adaptív prediktív kódolást (APC) kombinálva az időalapú jelet frekvenciaalapú jelösszetevőkre osztják, a megfelelő sávokban lévő jelösszetevőket alapsávokban (alacsony frekvenciasávokban) lévő jelösszetevőkké alakítják át, majd a prediktív kódolás kiszámítása végett egynél magasabb fokszámú lineáris predikciót alkalmaznak.

A fent említett hatékony kódolás során egy időalapú audiojelet az időalaptól lineárisan független bázisú, elterjedt matematikai megnevezéssel ortogonális - frekvenciaalapú jellé transzformálják ún. ortogonális transzformációval, például gyors Fourier-transzformációval (FFT) vagy diszkrét koszinusz transzformációval (DCT) stb. és egy előre meghatározott időegységgel később a frekvenciaalapú jelet több sávba, jelösszetevőkre osztják, majd a megfelelő osztott sávokban lévő együttható adatokat adaptív bithozzárendeléssel kódolják, és ezek a kódolt adatok kerülnek átvitelre.

A megfelelő sávok együttható adatainak a fent említett adaptív bithozzárendeléssel történő kódolásakor gyakran alkalmazzák azt a módszert, ami szerint például a frekvenciaalapú együttható adatokat adatblokkokba osztják, hogy minden blokknál úgynevezett lebegőblokkos vagy más szóval blokklebegtető feldolgozást végezzenek további tömörítés végett. Evégett - ugyanúgy, mint az ezt követő dekódoláskor - a rendszer úgy van felépítve, hogy az együttható adatokat sávokra osztja, minden blokkot és a megfelelő blokkok lebegő együtthatóiból álló segédinformációt blokklebegtetéssel feldolgozza, és a lebegő együtthatóknak megfelelő szóhossz-információt, valamint a megfelelő blokkok bithozzárendelési számát átviszi.

A fentebb említett hatékony kódolásnál azonban kívánatos a tömörítés hatékonyságának további növelése.

Találmányunk célja - a jelenlegi, fentebb leírt körülmények figyelembevételével - olyan kódolási eljárás digitális jelekhez, ami nagyobb mértékű bitsürítést, tömörítést tesz lehetővé.

Ezt a feladatot a találmány értelmében úgy oldjuk meg, hogy a spektrális jelösszetevőket kritikus sávokba osztjuk; az egyes kritikus sávokban lévő jelösszetevőket az a kritikus sáv sávszélességénél kisebb sávszélességű blokkokra osztjuk; az egyes blokkok lebegő-együtthatóit előállító lebegő-feldolgozást végzünk minden blokkon; a spektrális jelösszetevőket minden blokkban, a kritikus sáv megengedett zaj szintje szerint a blokkhoz rendelt bizonyos számú bittel kvantáljuk, a blokkhoz rendelt bitszámot szóhosszúság-információként azonosítjuk; és a komprimált jelnek a blokkokhoz rendelt szóhosszúság-információt, valamint a lebegö-együtthatók helyett a kritikus sáv megengedett zaj szintj éré vonatkozó információt tekintjük.

A találmányunk ad egy további eljárási módot, amennyiben annak feltételei teljesülnek. Eszerint a spektrális jelösszetevők kritikus sávokba osztása után a jelösszetevőket egyetlen, több kritikus sáv sávszélességével azonos sávszélességű blokkba osztjuk; a blokk lebegő-együtthatóját előállító lebegő feldolgozást végzünk a blokkon;

és a spektrális jelösszetevőket a kritikus sávokban adaptívan hozzárendelt számú bittel kvantáljuk.

Itt a hozzárendelt bitek számának meghatározásakor kívánatos egy olyan módszer alkalmazása, ami szerint meghatározunk egy úgynevezett maszkolási mennyiséget a megfelelő kritikus sávok energiáiból, fígyelembevéve az emberi hallóérzék jellemzőit és így a megfelelő kritikus sávokhoz hozzárendelt bitek számát a maszkolási mennyiségén alapuló megengedett szintek felhasználásával határozzuk meg.

Abban a fázisban, amikor a bemenő digitális jelből spektrális jelösszetevőket származtatunk, ezt célszerűen egy ortogonális transzformációval, tipikusan egy diszkrét koszinusz transzformációval (DCT) végezzük el.

Egy előnyös felosztási mód akként áll elő, hogy a spektrális jelösszetevőket kritikus sávokba osztjuk, a kritikus sávot a 0 és 22 kHz közötti frekvenciasávban 25 sávra osztjuk, amelyeknek a sávszélessége a magasabb frekvenciák felé növekszik.

Miután a spektrális jelösszetevőket minden blokkban kvantáljuk, célszerűen a következő lépéseket hajtjuk végre: a megengedett zajszintet a spektrális jelösszetevőkből számítjuk;

minden egyes blokkhoz egy magnitúdó együtthatót számítunk ki a blokkban levő spektrális jelösszetevőkből; és a spektrális jelösszetevők kvantálásánál a bitszámot az adott blokk magnitúdó együtthatója és a megengedett zajszint közötti különbség alapján állapítjuk meg.

Ha a bemenő digitális jelből spektrális jelösszetevőket származtatunk, a spektrális jelösszetevők egy kézenfekvő kezelési formátumban amplitúdó és fázis értékekből állnak. Amikor minden egyes blokkhoz egy magnitúdó együtthatót számítunk ki, akkor a blokkban levő spektrális jelösszetevők amplitúdó értékeit összegezzük.

Találmányunkat annak egy példaképpeni foganatosítási módja kapcsán ismertetjük részletesebben, ábráink segítségével, amelyek közül az

A. ábra azt az esetet ábrázolja, amelyben a találmány szerinti lebegő feldolgozást végzünk minden blokkon, aminek a sávszélessége kisebb, mint a kritikus sávé, az

HU 213 592 Β

1B. ábra azt az esetet ábrázolja, amelyben a találmány szerinti lebegő-feldolgozást végzünk minden blokkon, aminek a sávszélessége nagyobb, mint a kritikus sávé, a

2. ábra a találmány szerinti eljárás egyik foganatosítási módjának folyamatábrája, a

3. ábra a megengedett zajszint beállítására szolgáló áramkör tömbvázlata, a

4. ábra egy burkoló spektrum, az

5. ábra egy maszkolási spektrum, a

6. ábra egy minimális hallhatósági görbe és egy maszkolási spektrum szintézisét mutatja, a

7. ábra az adott foganatosítási mód megfelelő blokkjainak átvitt megengedett zajszintjeit magyarázza.

A találmány értelmében, mint azt a továbbiakban részleteiben is bemutatjuk, a megfelelő digitális audiojeleket kódoló eljárások szerint, amint ez az 1A. és 1B. ábrán látható, a bemenő digitális jelet ortogonálisán például gyors Fourier-transzformációval vagy DCT-val - ortogonálisán transzformáljuk. Az ortogonálisán transzformált jelet egy Β (B1-B4) kritikus sávba, jelösszetevőkre osztjuk úgy, hogy a frekvencia magasabb értékek felé való eltolódásával a sávszélesség az emberi hallóérzéknek megfelelően szélesebbé válik. A megfelelő kritikus sávokban lévő jelösszetevőket olyan bitszámmal kódoljuk, ami a kritikus sáv oknak a kritikus sávok energiái alapján beállított, megengedett NL zajszintje és a megfelelő kritikus sávok energiái közötti különbség szintjének felel meg. Az ortogonálisán transzformált jelösszetevőket blokkokba osztjuk, elvégezzük minden b blokk lebegő feldolgozását és átvisszük minden b blokk Fc lebegő-együtthatóit.

Más szavakkal: ennél a foganatosítási módnál a

2. ábrán látható folyamatábra szerinti feldolgozást végezzük el. Először, az SÍ lépésben blokkokba osztjuk az ortogonálisán transzformált jelösszetevőket, elvégezzük a blokkok lebegő-feloldozgásait és így meghatározzuk minden blokk lebegő-együtthatóit (lebegőszintjeit). Az S2 lépésben beállítjuk a megfelelő kritikus sávoknak a kritikus sávok energiái alapján beállított, megengedett zajszintjeit, amit a később leírt módon határozunk meg. Az S3 lépésben a kritikus sávok megengedett zajszintjei és a megfelelő kritikus sávok energiái közötti különbségeknek megfelelő szintek alapján beállított, hozzárendelt bitszámoknak megfelelő szóhosszúság-információkat határozzuk meg. Az 2. ábrán még szereplő S4, S5, S6 lépésekről később lesz szó.

Itt például, mint ez az 1A. ábrán látható, a B kritikus sáv sávszélességénél kisebb sávszélességű kis blokkok (bl-b4 kis blokk) lebegő-feldolgozása esetén alkalmazott módszer szerint a B kritikus sávok lebegő együtthatóinak átvitele helyett egy megengedett NL zajszintre vonatkozó információt és W1-W4 szóhosszúság-információt viszünk át, ami a kis, bl-b4 blokkokhoz hozzárendelt bitek számának felel meg.

Továbbá, mint ez az 1B. ábrán látható, a B1-B4 kritikus sávok sávszélességénél nagyobb sávszélességű, nagy blokkok (b nagy blokk) lebegő-feldolgozása esetén alkalmazott módszer szerint minden b nagy blokk lebegőegyütthatóira vonatkozó információt viszünk át és W1-W4 szóhosszúság-információt viszünk át, ami a B1-B4 kritikus sávhoz hozzárendelt bitek számának felel meg.

Megjegyzendő, hogy az 1 A. ábrán látható példában a kritikus sáv nagy sávszélességének magasabb frekvenciájú oldalán lévő, egy B kritikus sáv van kiemelve és ábrázolva. Az 1B. ábrán látható példában egy kis sávszélesség alacsonyabb frekvenciájú oldalán lévő megfelelő sávok szerepelnek. Emellett az 1A. ábrán az áttekinthetőség kedvéért csak a W1-W4 szóhosszúságokat ábrázoltok, mivel a hozzárendelt bitszám és a W-W4 szóhosszúságok meghatározásánál a szintkülönbségek megegyeznek egymással.

Mint ezt már említettük, ennél a foganatosítási módnál az FFT együttható-adatoknál a kódolást adaptív bithozzárendeléssel végezzük. Itt az adaptív bithozzárendeléssel végzett kódoló-feldolgozás meghatároz - az emberi hallóérzék jellemzőinek figyelembevételével, mint ezt később leírjuk - a megfelelő kritikus sávok energiái alapján egy úgynevezett maszkolási mennyiséget, és így meghatározza a maszkolási mennyiség alapján beállított, megengedett zaj szint (vagyis lényegében az egyes kritikus sávok rögzített megengedett zaj szintje) és a megfelelő kritikus sávok energiája közötti különbséget megadó szintnek megfelelő, hozzárendelt bitszámot. Ezáltal a kódolás az egyes kritikus sávokhoz hozzárendelt bitszámtól függően történik.

A megfelelő kritikus sávokban lévő több együtthatóadat blokkokat képez rögzített számú együtthatóadattal mindegyik blokk úgynevezett blokklebegtető feldolgozásához, bitsűrítés végrehajtása végett. Ennek megfelelően úgy, mint az 1A. ábra szerinti példában, egy B kritikus sávban a magasabb frekvenciájú oldalon, vagyis a kritikus sáv széles sávszélességén több blokk lesz (például négy, bl-b4 kis blokk). Abban az esetben, ha a sávszélesség kicsi (a kritikus sáv alacsonyabb frekvenciájú oldala) egy nagy b blokkban több kritikus sáv lesz (például négy, B1-B4 kritikus sáv).

Ha a blokklebegtető-feldolgozást ily módon szabályszerűen végezzük, akkor a későbbi dekódolási feldolgozásnál lebegőegyütthatókra van szükség a lebegtető-feldolgozáshoz és a hozzárendelési bitszámoknak megfelelő szóhosszúság-információra van szükség. A későbbi dekódoláshoz szolgáló elrendezésben olyan rendszerre van szükség, ami átviszi minden blokk lebegőegyüttható információit és a hozzárendelt bitszámnak megfelelő szóhosszúság-információt, ami a lebegöegyütthatók szintjei és a kritikus sávok megengedett zaj szintjei közötti szintkülönbségeken alapszik.

Más szavakkal: a későbbi dekódoláskor a legszignifikánsabb (MSB = most significant bit) a blokk-lebegtető feldolgozásban a lebegőegyüttható információból határozzuk meg. Hasonlóképpen, a legkevésbbé szignifikáns bitet (LSB = least significant bit) a szóhosszúságinformációból határozzuk meg. így határozzuk meg a megengedett zajszintet. Ezenkívül a jel nagyságát a megfelelő blokkok együttható adataiból (főadataiból) határozzuk meg. Itt a lebegőegyüttható információt általában 6 bit ábrázolja és a szóhosszúság-információt 4 bit ábrázolja. Megjegyzendő, hogy abban az esetben, amelyben

HU 213 592 Β az ortogonális transzformáció DFT (diszkrét Fourier-transzformáció), a fent említett szóinformáció olyan, hogy a nagyságát (amplitúdót) és a fázist, vagy a valós részt és a képzetes részt 4 bit ábrázolja. Ezért például abban az esetben, amelyben egy kritikus sáv több lebegő blokkal van osztva, a blokk-lebegtető feldolgozásban a blokkok számának (vagyis a sávok osztási számának) megfelelő teljes kritikus sáv átvitt bitszámát az 1. táblázat adja meg.

1. táblázat

A kritikus sáv

újraosztásának száma	1	2	3	4
Lebegőegyüttható-
információ	6	6x2	6x3	6x4
Szóhosszúság-információ	4	4x2	4x3	4x4
Összesen:	10	20	30	40

Ebben az 1. táblázatban, ha a kritikus sávot egyetlen blokk ábrázolja (egy osztás: az osztás száma 1), akkor az összes 10 bitből 6-ot a lebegőegyüttható számára és 4 bitet a szóhosszúság számára viszünk át. Ha a kritikus sávot két blokk ábrázolja (két osztás), akkor összesen 20 bitet, a lebegő-együttható számára 6*2 (=12) bitet és a szóhosszúság számára 4x2 (=8) bitet viszünk át. Hasonlóképpen, három osztás esetén összesen 30 bitet, a lebegő-együttható számára (6x3 (=18) bitet és a szóhosszúság számára 4x3 (=12) bitet viszünk át. Négy osztás esetén pedig az (1A. ábra szerinti példa) összesen 40 bitet, a lebegő-együttható számára 6x4 (=24) bitet és a szóhosszúság számára 4x4 (=16) bitet viszünk át. Amint ezt fentebb leírtuk, ahogyan az egyetlen kritikus sávban lévő blokkok száma növekszik, úgy nö az átvitt bitszám is.

Ezzel szemben a találmánynak az 1A. ábra szerinti foganatosítási módjánál azt a módszert alkalmazzuk, hogy csak a B kritikus sávhoz képest beállított, megengedett NL zaj szintre vonatkozó információt és a hozzárendelt bitszámnak megfelelő W1 - W4 szóhosszúságinformációt visszük át és nem visszük át a B kritikus sávban lévő megfelelő kis blokkok Fcl-Fc4 lebegőegyütthatóira vonatkozó információt. A későbbi dekódolási feldolgozásban ugyanis, ha a B kritikus sáv megengedett NL zajszintjére vonatkozó információt átvisszük, akkor a megfelelő bl-b4 kis blokkok Fcl-Fc4 lebegő-együtthatóira vonatkozó információ meghatározható a megengedett NL zajszintre vonatkozó információ és a megfelelő, bl—b4 kisblokkok W1 -W4 szóhosszúságaira vonatkozó információ alapján. Ezen ok miatt ebben az esetben az Fcl-Fc4 lebegőegyüttható információt nem visszük át. így a négy szükséges Fcl-Fc4 lebegő-együttható átvitelénél a bitszám a B kritikus sávhoz képest csökkenthető.

Itt a megengedett NL zaj szintet a kritikus sávoknál az emberi hallóérzék sajátosságainak figyelembevételével határozzuk meg. A kritikus sávban figyelembe vehető, hogy a megengedett NL zaj szint egy kritikus sávban lényegében állandó. Ennek megfelelően hasonlóképpen figyelembe vehető, hogy a megengedett NL zaj szint szintje azonos az 1A. ábra szerinti B kritikus sávon belüli megfelelő bl-b4 blokkban is. Megjegyzendő, hogy ha az egész dinamikus tartomány például 120 dB és a lebegőegyütthatót 6 bit ábrázolja, akkor a lebegő-együttható pontossága körülbelül 2 dB és ha a szóhosszúság-információt 4 bit ábrázolja, akkor a szóhoszszúság-információ pontossága körülbelül 6 dB. Emiatt az ok miatt a későbbi dekódoláskor az Fcl-Fc4 lebegőegyüttható-információ és a W1 - W4 szóhosszúság-információ által meghatározott megengedett zaj szintnek körülbelül 2 dB eltérése vagy eltolódása van, amint ez a 7. ábrán látható. A megengedett NL zaj szint azonban rendszerint lényegében a+3 B tartományba esik. Erre való tekintettel az ennél a foganatosítási módnál alkalmazott módszer szerint a megengedett NL zaj szint ábrázolásához kétlépcsős kvantálást alkalmazunk: egy közös durva kvantálást a kritikus sávokban és egy finom kvantálást a kritikus blokkokban lévő lebegő-feldolgozás megfelelő kis blokkjainál. így a megengedett NL zajszintet egy közös értékként nagy pontossággal állítjuk be. Mégpedig ennél a foganatosítási módnál - minthogy a megengedett NL zajszint a 4 bit lóg szint - a megengedett NL zajszintet, amit a 4 bit lóg nem tud ábrázolni, végül is 2 bit lóg ábrázolja. Ennek megfelelően itt a kb. 6 dB-t elosztjuk néggyel és így a megengedett zajszint pontossága 1,5 dB lehet. A fentiek szerint felhívjuk a figyelmet arra a tényre, hogy a megfelelő megengedett NL zajszintek, lényegében egyenlőek több kis blokkban, hogy ki lehessen választani egy nagypontosságú paramétert a lebegő-együtthatókból és a megengedett szintből, lehetővé téve azáltal a bitszám csökkentését. Az 1A. ábra szerinti bitszámcsökkentés módja - az 1. táblázattal öszehasonlítva a 2. táblázatban található.

2. táblázat

A kritikus sáv újra-
osztásának száma	1	2	3	4
Megengedett zaj szint	4+2	4+2x2	4+2x3	4+2x4
Szóhosszúság- információ	4	4x2	4x3	4x4
Összesen:	10	16	22	28
Az 1. táblázat szerinti példa adatait 100%-nak véve	100	80	73	70

A 2. táblázatban, abban az esetben, amelyben a B kritikus sávot egy blokk ábrázolja (egy osztás), 4 bitet viszünk át a megengedett NL zaj szint számára és 4 bit a W szóhosszúság számára. Megjegyezzük, hogy a megengedett NL zajszintnél, mint fentebb említettük, a 2 dB eltérés kompenzálása végett 2 bitet hozzáadunk (4x2 bit). Emiatt egy osztás esetében összesen 10 bitet viszünk át. Hasonlóképpen, abban az esetben, amelyben a B kritikus sávot két kis blokk ábrázolja (két osztás). Összesen 16 bitet, a megengedett zajszint számára 4+2x2 = 8 bitet és a W szóhosszúság számára 4x2 = 8 bitet viszünk át. Hasonlóképpen három osztás esetén összesen 22 bitet, a megengedett NL zaj szint számára 4+2^x 3 = 10 bitet és a W szóhosszúság számára 4x3 = 12 bitet viszünk át. Négy osztás esetén (az 1A. ábra szerinti példa) összesen 28 bitet, a megengedett NL zajszint számára 4+2x4 = 12 és a

HU 213 592 Β kony, egyszerűsített rendszert lehet alkalmazni, amiben a többi W2-W4 szóhosszúságra vonatkozó információt nem visszük át. Eszerint az átvitt bitek számát három

W2-W4 szóhosszúságra vonatkozó információval csökkenteni lehet a B kritikus sávhoz képest.

Az 1B. ábra szerinti példában a bitszám csökkentésének módja - az 1. táblázattal összehasonlítva - a 3. táblázatban látható.

3. táblázat szóhosszúság számára 4*4 = 16 bitet viszünk át. Ezért ha az 1. táblázat szerinti példában átvitt bitszámot 100%nak vesszük és ezt összehasonlítjuk a 2. táblázattal, akkor a 2. táblázat szerinti példa esetében egy osztás esetén a bitszám 100% és ahogyan az osztások száma (a blokkok száma) növekszik, ügy javul a bitsűrítési arány, így két osztás esetén az átvitt bitszám 80%, három osztás esetén 73% és négy osztás esetén 70%. Látható tehát hogy ez a módszer nagyon hatékony.

Megjegyzendő, hogy a W1-W4 szóhosszúság-információ kvantálása természetszerűleg nem adaptív, hanem egyforma.

Összehasonlítva azt az esetet, amelyben a lebegőfeldolgozást a kritikus sáv sávszélességénél kisebb sávszélességű, kis blokkokban végezzük, mint az 1A. ábra szerint, azzal az esettel, amelyben a lebegő-feldolgozást például a kritikus sáv sávszélességénél nagyobb sávszélességű, nagy blokkokban végezzük, ugyancsak a későbbi dekódoláskor rendszerint a megfelelő kritikus sávok blokk lebegő-együtthatóra vonatkozó információ és a megfelelő kritikus sávok szóhosszúságai szükségesek. Ezzel szemben a jelen foganatosítási módnál a kritikus sáv sávszélességénél nagyobb sávszélességű nagy b blokkok lebegő-feldolgozásakor, ami az 1B. ábrán látható, az egy nagy blokk Fc lebegő-együtthatójára vonatkozó információt és az egyes, B1-B4 kritikus sávokban meghatározott W1-W4 szóhosszúságra vonatkozó információt visszük át, mint a lebegő-együtthatóra vonatkozó információt. Megjegyezzük, hogy a megfelelő B1-B4 kritikus sávok megengedett NL1-NL4 zajszintjeire vonatkozó információt nem visszük át. Minthogy ugyanis az Fc lebegő-együtthatók a megfelelő, B1-B4 kritikus sávokban egymással egyenlők, ezért a megengedett NL1-NL4 zaj szinteket meg lehet határozni, az egyes kritikus sávok egy Fc lebegő-együtthatójára vonatkozó információból és W1-W4 szóhosszúságára vonatkozó információból. Eszerint ha segédinformációként csak az Fc lebegő-együtthatóra vonatkozó információt és a megfelelő, W1-W4 szóhosszúságokra vonatkozó információt visszük át, akkor egy szokványos esethez képest a segédinformációhoz szükséges bitszám tovább csökkenthető.

Az 1A. ábra szerinti példában továbbá alkalmazható egy olyan módszer, ami szerint egy B kritikus sávban a megfelelő W1-W4 szóhosszúságok közül csak a W1 szóhosszúságra vonatkozó információt visszük át és a többi, W2-W4 szóhosszúságra vonatkozó információt nem visszük át. így csak a B kritikus sávban lévő Fcl-Fc4 lebegő-együtthatókra vonatkozó információt és a W1 szóhosszúságra vonatkozó információt visszük át. Más szavakkal: ha a későbbi dekódolási feldolgozás során egy szóhosszúságra vonatkozó információt viszünk át, akkor a többi, W2-W4 szóhosszúságra vonatkozó információt meg lehet határozni a megfelelő Fcl-Fc4 lebegő-együtthatókra vonatkozó információból. Konkrétan: ha a megengedett NL zajszint az Fel lebegő-együttható által és a W1 szóhosszúság által meghatározható, akkor a többi, W2-W4 szóhosszúságot a megengedett NL zajszintböl és az Fc2-Fc4 lebegő-együtthatóból meg lehet állapítani. Ezáltal egy hatéKritikus sáv

egységszáma	1 sáv	2 sáv	3 sáv	4 sáv
Lebegőegyüttható- információ	6	6	6	6
Szóhosszúság- információ	4	4*2	4*3	4*4
Összesen:	10	14	18	22
Az 1. táblázat szerinti példa adatait 100%-nak véve	100	70	60	55

A 3. táblázathoz a magyarázatot az egy b blokkban egyesített vagy összekapcsolt kritikus sávok számát (egységszám) használva adjuk meg. Ha az egy b blokkban egyesített sávok száma 1 (1 sáv), akkor összesen 10 bitet, az Fc lebegő-együttható szintjére vonatkozó információ számára 6 bitet és a W szóhosszúság számára 4 bitet viszünk át. Hasonlóképpen, ha a kritikus sávok száma 2 (két sáv), akkor összesen 14 bitet, az Fc lebegő-együttható számára 6 bitet és a W szóhosszúság számára 4*2 = 8 bitet viszünk át. Hasonlóképpen, három sáv esetében összesen 18 bitet, az Fc lebegő-együttható számára 6 bitet és a W szóhosszúság számára 4*3 = 12 bitet viszünk át. Végül négy sáv esetén (lB.ábra szerinti példa) összesen 22 bitet, az Fc lebegő-együttható számára 6 bitet és a szóhosszúság számára 4*4 =16 bitet viszünk át. így - ha az 1. táblázat szerinti bitszámot 100%-nak vesszük és ezt a 3. táblázattal összehasonlítjuk — egy sáv esetén az átvitt bitszám megegyezik az 1. táblázat szerinti példával, vagyis 100% és ha a sávok száma nő, akkor a bitcsökkentési arány ennek megfelelően növekszik, így két sávnál 70%, három sávnál 60% és négy sávnál 55%. Látható tehát, hogy ez a módszer nagyon hatékony.

Ha a találmánynak a jelen foganatosítási módjánál a lebegő-feldolgozást a kritikus sáv sávszélességénél kisebb sávszélességű, kis blokkokban végezzük, akkor az S4 lépésben meghatározzuk és átvisszük a kis blokkokhoz hozzárendelt bitszámnak megfelelő szóhosszúságinformációt. Az S5 és S6 lépésben - a kritikus sávok lebegő-együtthatói helyett - meghatározzuk és átvisszük arra a megengedett zajszintre vonatkozó információt, aminek a rendeltetési tartománya a kritikus tartományban lévő jelszinttartományból az alacsonyabb szint irányában van eltolva egy előre meghatározott szinttel, (ami a később leírandó maszkolási mennyiségén alapszik). Gyakorlatiasabban kifejezve: az S2 lépésben meghatározott megengedett zajszintnek megfelelő érték kiadásához és átviteléhez egy kvantálási táblázatot használunk, amiben tárolva vannak azok az értékek, amik

HU 213 592 Β szerint a rendeltetési tartományt az előbb említett meghatározott szinttel eltoljuk az alacsonyabb szint irányában a kritikus sávban lévő jelszinttartománytól.

Amint ezt fentebb leírtuk, a megengedett zaj szint rendeltetési tartományát a következők miatt toljuk el. Először is az S2 lépésben meghatározott megengedett zajszintre vonatkozó információ átvitele esetében hatástalan vagy értelmetlen a megengedett zaj szintre ugyanazt az indexet használni, mint arra a dinamikus tartományra, amiben egy tényleges jel beleesik. A megengedett zaj szintet ugyanis egy maszkolási mennyiség alapján határozzuk meg, ami - mint később leírjuk - figyelembe veszi az emberi hallóérzék jellemzőit és ezért egy olyan értékkel válik egyenlővé, ami egy előre meghatározott szinttel alacsonyabb, mint a fent említett tényleges jelszint maximális értéke. A megengedett zajszintet például úgy állapítjuk meg, hogy körülbelül 26 dB-lel alacsonyabb, mint a jelszint. Mint az előbb említettük, rendkívül hatástalan vagy értelmetlen a jelszint által felvehető dinamikus tartományt használni a megengedett zajszintként, mivel egy bizonyos rögzített szinttel szükségképpen alacsonyabb, mint a jelszint. Ez a bitszám csökkentése szempontjából sem előnyös. Ezért ennél a foganatosítási módnál egy kvantálási táblázatot használunk, ami szerint a rendeltetési tartomány a kritikus sávban lévő jelszinttartományból egy előre meghatározott szinttel el van tolva az alacsonyabb szint irányában. így a megengedett zajszintet kevesebb számú bittel is ábrázolni lehet. Másképpen kifejezve: a megengedett zaj szintet kisebb bitszámmal is ugyanakkora felbontással (pontossággal) lehet ábrázolni, mint akkor, ha nem lenne eltolás. Eszerint csökkenteni lehet a megengedett zaj szint átviteléhez szükséges bitszámát.

A későbbi dekódoló feldolgozáshoz a W1 szóhosszúságot megadó bl kis blokkátviteli zaj szintje és a megengedett NL zaj szinthez legközelebb eső szint közötti különbséget együtt visszük át. A megengedett NL zaj szint és az ehhez legközelebb eső szint közötti különbséget megadó információként döntési bitinformáció - például 2 bit - átvitelével átvihető az az információ, ami megadja, hogy a megfelelő kis blokkok átviteli zajszintjei hol esnek a lényegében +3 dB-es tartományba. Megadjuk például, hogy ha a 2 bit döntési bitinformáció „00”, akkor az átviteli zaj szintet a + (plusz) oldal felé toljuk el (+1) ; ha ez az információ „01”, akkor a zaj szintnek nincs eltolása; ha ez az információ „10”, akkor a zajszintet a - (mínusz) oldal felé toljuk el (-1). Megjegyezzük, hogy a „11 ”-et nem használjuk vagy azt jelzi, hogy az átviteli zajszint nem változott.

így a bl kis blokkátviteli zajszintjét az Fel lebegő-együtthatóra és a W1 szóhosszúságra vonatkozó információból határozzuk meg. Továbbá a megengedett zajszint és az ehhez legközelebb eső szint közötti különbséget (a döntési bittel jelzett szintkülönbséget) hozzáadjuk a megengedett NL zajszinthez és igy lehetővé teszszük a megengedett zajszinthez legközelebb eső szint előállítását. Ekkor a megfelelő, Fc2 - Fc4 lebegő-együtthatókból meg lehet határozni a megfelelő, W2 - W4 szóhosszúságokat, mivel a megfelelő b 1 _ b4 kis blokkok átvitt zajszintjei nincsenek a megengedett NL zajszinthez legközelebb eső szinttel szomszédos szinten túl eltolva.

Az 1. ábra szerinti példában a bitszám csökkentésének módja - az 1. táblázattal összehasonlítva - a 4. táblázatban látható.

4. táblázat

A kritikus sáv
újraosztásainak száma	1	2	3	4
Lebegö-együttható- információ	6	6x2	6x3	6x4
Szóhosszúság- információ	4	4	4	4
Döntési bit	(2)	2	2	2
Összesen:	10	18	24	30
Az 1. táblázat szerinti példa adatait 100%-nak véve	100	90	80	75
A 4. táblázat szerint, ha a	B kritikus sávot	egy kis

blokk (osztás) ábrázolja, akkor a lebegő-együttható számára 6 bitet és a W szóhosszúság számára 4 bitet viszünk át. Megjegyezzük, hogy a fentebb említett döntési bitet (2 bit) ebben az esetben nem használjuk. Ezért egy osztás esetén összesen 10 bitet viszünk át. Hasonlóképpen, ha a B kritikus sávot két b kis blokk ábrázolja (két osztás), akkor összesen 18 bitet, a lebegő-együttható számára 6x2= = 12 bitet, a W szóhosszúság számára 4 bitet és a döntési bitinformáció számára 2 bitet viszünk át. Hasonlóképpen, három osztás esetén összesen 24 bitet, a lebegő-együttható számára 6><3 = 18 bitet, a W szóhosszúság számára 4 bitet és a döntési bitinformáció számára 2 bitet viszünk át. Végül négy osztás esetén (1. ábra szerinti példa) összesen 30 bitet a lebegő-együttható számára 6x4 = 24 bitet, a W szóhosszúság számára 4 bitet és a döntés bitinformáció számára 2 bitet viszünk át. így az 1. táblázat szerinti átvitt bitszámot 100%-nak véve és a

4. táblázat szerinti példával összehasonlítva, ha az osztások száma 1, akkor az átvitt bitszám ugyanannyi, mint az 1. táblázatban, vagyis 100% míg az osztások számának (a kis blokkok számának) növekedésekor a bitcsökkentési arány javul, olyan mértékben, hogy ha az osztások száma 2, akkor az átvitt bitszám 90%; ha az osztások száma 3, akkor 80% és ha osztások száma 4, akkor 75 %. Eszerint ez a módszer rendkívül hatékony.

Megjegyezzük, hogy a fent említett foganatosítási módoknál az a szint, amit a megengedett NL zajszint felvehet, kisebb, mint a dinamikus tartomány. Minthogy S/N minimális értéke körülbelül 30 dB, ezért nincs lehetőség arra, hogy a megengedett zaj szint a dinamikus tartomány csúcsértékéből (0 dB) a körülbelül 30 dB-es részbe lépjen. így ilyen beállítás végezhető a kódolásban.

A 3. ábrán látható egy rendszer, amiben a jelen kódolási eljárást alkalmazzuk. Eszerint meghatározzuk a fentebb leírt, megengedett zaj szinteket és a megengedett zajszinteken alapuló hozzárendelt bitszámmal kódoljuk a jeleket.

A 3. ábrán látható, hogy az 1 bemenetre adott, időalapú digitális audioadatot átvisszük egy 11 ortogonális transzformáló áramkörbe. Ez a 11 ortogonális transzfor6

HU 213 592 Β máló áramkör az időalapú audioadatot egységidőnként (egységblokkonként) frekvenciaalapú adatokká alakítja át. Ily módon egy Re valós értékű összetevőből és egy lm képzetes értékű összetevőből álló együttható adatok jönnek létre. Ezeket az együttható adatokat átvisszük egy 12 amplitúdó-fázisinformáció generátorba. A 12 amplitúdó-fázisinformáció generátor az Re valós összetevőből és lm képzetes összetevőből Am amplitúdóinformációt és Ph fázisinformációt állít elő. Innen csak az Am amplitúdóinformációt adjuk ki. Az emberi hallóérzék ugyanis általában a frekvenciaterület amplitúdójára (teljesítményére) érzékeny és meglehetősen érzéketlen a fázisra, ezért ennél a foganatosítási módnál a hozzárendelt bitszám-információ előállításához csak az Am amplitúdóinformációt használjuk.

Az Am amplitúdóinformációt először egy 13 sávosztóra adjuk. Ez a 13 sávosztó az Am amplitúdóinformációval ábrázolt bemenőjelet úgynevezett kritikus sávokra osztja szét. A kritikus sávokat az emberi hallóérzék jellemzői (frekvenciaelemzési képesség) alapján határozzuk meg. A 0...22 kHz frekvenciaáramú jelet például 25 sávra osztjuk úgy, hogy a frekvenciának a magasabb frekvenciájú oldal felé való eltolódásával a sáv szélesebbé válik. Az emberi hallóérzék ugyanis olyan mint egy sávszűrő és a megfelelő szűrők által osztott sávokat kritikus sávoknak nevezzük.

Az egyes sávoknak a 13 sávosztó által kritikus sávokra szétosztott Am amplitúdóját a teljes összeget észlelő 14 összegészlelőre adjuk. Ez a 14 összegészlelő meghatározza az egyes sávok energiáit (a spektrumintenzitásokat az egyes sávokban) úgy, hogy képezi a megfelelő sávokban lévő Am amplitúdóinformáció teljes összegét (az Am amplitúdóinformáció csúcsainak, átlagainak vagy energiáinak teljes összegét). A kimenőjelet, vagyis a megfelelő sávok teljes összegének a 14 összegészlelőről kapott spektrumát általában burkoló spektrumnak nevezik. A megfelelő sávokban lévő SB burkoló spektrumot példaként a 4. ábrán mutatjuk be.

Megjegyezzük, hogy a 4. ábra egyszerűsítése végett a kritikus sávok sávszáma tizenkettő (B 1-től B 12-ig).

Itt az SB burkoló spektrum úgynevezett maszkolásának hatását úgy vesszük figyelembe, hogy az SB burkoló spektrumra egy előre meghatározott súlyozó függvényt konvolválunk (konvolució). Ennek megvalósítása végett a 14 összegészlelöröl egy kimenőjelet, vagyis az SB burkoló spektrum megfelelő értékeit egy 15 szűrő áramkörre adjuk. A 15 szűrőáramkör tartalmaz például több késleltető elemet a bemenőadatok szekvenciális késleltetésére, több szorzó áramkört (például a megfelelő sávok szerint 25 szorzóáramkört) a késleltető elemek kimenőjeleinek szürőtényezőkkel (súlyozó függvény) való szorzására és teljes-összeg összeadóáramkört a szorzóáramkörök kimenőjelei teljes összegének képzésére. A 15 szűrőáramkör szorzóáramköreiben a szorzási művelet a következőképpen megy végbe. Például egy tetszőleges sávnak megfelelő M szorzóáramkörben a szürötényezőt megszorozzuk a megfelelő késleltető elemek kimenőjeleivel; az M-l szorzóáramkörben a 0,15 szürötényezőt megszorozzuk ezekkel a kimenőjelekkel, az M-2 szorzóáramkörben a 0,0019 szűrőtényezőt megszorozzuk ezekkel a kimenőjelekkel, az M-3 szorzóáramkörben a 0,000086 szürötényezőt megszorozzuk ezekkel a kimenőjelekkel; az M+l szorzóáramkörben a 0,4 szűrőtényezőt megszorozzuk ezekkel a kimenőjelekkel; az M+2 szorzóáramkörben a 0,06 szürötényezőt megszorozzuk ezekkel a kimenőjelekkel és az M+3 szorzóáramkörben a 0,007 szürötényezőt megszorozzuk ezekkel a kimenőjelekkel. így hajtjuk végre az SB burkoló spektrum konvoluciós feldolgozását. Megjegyezzük, hogy M egy tetszőleges, 1 és 25 közötti egész szám. Ezzel a konvoluciós feldolgozással a szaggatott vonallal jelölt terület teljes összegét veszszük. Megjegyezzük, hogy az előbb említett maszkolás azt a jelenséget jelenti, hogy egy jelet egy másik jel maszkol és nem hallható. Az audiojelnél a maszkolási hatás lehet vagy időalapú vagy frekvenciaalapú. A maszkolási effektus révén még ha van is zaj a maszkolt részben ez a zaj nem hallható. Ezért az adott audiojelben a maszkolásnak kitett részben lévő zajt megengedett zajnak tekintjük.

Ezután a szűrőáramkör kimenőjelét a 16 kivonóáramkörre adjuk. Ez a 16 kivonóáramkör egy megengedett zaj szintnek megfelelő a szint meghatározására szolgál, amit később a konvolvált résznél írunk le. Megjegyezzük, hogy a megengedett zajszintnek megfelelő a szint olyan szint, amelyik a később leírandó dekonvoluciós feldolgozáskor a kritikus sáv minden sávjának megengedett zajszintjével megegyezővé válik. Itt az a. szintet meghatározó megengedett függvényt (a maszkolási szintet ábrázoló függvényt) adunk a 16 kivonó áramkörre. Ennek a megengedett függvénynek a növelésével vagy csökkentésével szabályozzuk az ot szintet. Ezt a megengedett függvényt egy később leírandó 29 függvénygenerátor szolgáltatja.

Ha egy sáv alacsony frekvenciájú sávjából adott sorszámot i-nek vesszük, akkor a megengedett zajszintnek megfelelő a szintet az alábbi egyenlet határozza meg:

a = S - (n - ai), ahol n és a - állandók

S - a konvolucióval feldolgozott burkoló spektrum intenzitása.

A fenti egyenletben (n-ai) egy megengedett függvényt ad meg. A jelen foganatosítási módnál n értékét 38-nak és a értékét 1-nek vesszük. Ekkor a hangminőség nem romlik. így kielégítő kódolást végzünk.

így határozzuk meg az a szintet. Ezt az adatot egy osztó áramkörre visszük át. A 17 osztóáramkör dekonvoluciót végez a konvolvált részben lévő a szinten. Eszerint ezt a dekonvoluciót elvégezve az a szintből egy maszkolási spektrumot kapunk. Ez a maszkolási spektrum egy megengedett zajspektrummá válik. Megjegyezzük, hogy a fent említett dekonvoluciós feldolgozás bonyolult műveletet igényel, de a jelen foganatosításmódnál a dekonvoluciót egy egyszerűsített 17 osztóáramkör végzi.

Ezután a fent említett maszkolási spektrumot egy szintetizáló áramkörön át egy 19 kivonóáramkörre visszük át. A 14 összegészlelö kimenőjelét, vagyis a 14 összegészlelőről az előbb leirt SB burkoló spektrumot egy 21 késleltető áramkörön át a 19 kivonóáramkörre

HU 213 592 Β adjuk. A 19 kivonóáramkör kivonási műveletet végez a maszkolási spektrummal és az SB burkoló spektrummal. így, amint ez az 5. ábrán látható, az SB burkoló spektrumnak az a része kerül maszkolásra, aminek a szintje alacsonyabb, mint az MS maszkolási spektrum szintje által jelzett szint.

A 19 kivonóáramkör kimenőjelét a megengedett zajszintet helyesbítő 20 zaj szint-helyesbítő áramkörön át egy 30 ROM-tárra adjuk. A 30 ROM-tár az Am amplitúdóinformáció kvantálásához használt több hozzárendelési bitszám-információt tárol. Ez a 30 ROM-tár olyan hozzárendelt bitszám-információ kiadására szolgál, ami a 19 kivonóáramkör kimenőjelének felel meg (a megfelelő sávokban lévő energia- és a zaj szintbeállító egység kimenőjele közötti különbség szintjének). Ennek megfelelően a 24 kvantáló az Am amplitúdóinformációt a hozzárendelt bitszám információ alapján kvantálja. A 24 kvantáló kimenőjele a 2 kimeneten lép ki. Megjegyezzük, hogy a 21 késleltető áramkör rendeltetése a 14 öszszegészlelőtől jövő SB burkoló spektrum késleltetése a 18 szintetizáló áramkör előtti áramkörökben fellépő késleltetések figyelembevételével. Ezenkívül van egy 23 késleltető áramkör, ami az Am amplitúdóinformációt késlelteti a 30 ROM-tér előtti áramkörökben fellépő késleltetések figyelembevételével.

A korábban leírt 18 szintetizáló áramkörben szintetizálni lehet a 6. ábra szerint az emberi hallóérzék jellemzőinek megfelelő, a 22 generátor által szolgáltatott, úgynevezett RC minimális hallhatósági görbét és az MS maszkolási spektrumot. Ha egy zaj abszolút szintje a minimális hallhatósági görbe alatt van, akkor ezt a zajt nem lehet hallani. A minimális hallhatósági görbe lejátszáskor a lejátszási hangerő változásától függően változik akkor is, ha a kódolás azonos. Megjegyezzük, hogy a zene belépési módja nem nagyon változik, például 16 bit dinamikus tartomány a jelenlegi digitális rendszerekben, ezért ha feltételezzük, hogy például a fül számára legjobban hallható, 4 kHz körüli frekvenciasáv kvantálási zaja, a minimális hallhatósági görbe szintjénél kisebb kvantálási zajt úgy tekintjük, hogy más frekvenciasávokban nem hallható. Ennek megfelelően, ha feltételezünk egy olyan alkalmazási módot, amiben a rendszer szóhosszúságának például 4 kHz közelében lévő zaj nem hallható és a megengedett zaj szintet az RC minimális hallhatósági görbe és az MS maszkolási spektrum szintézisével állítjuk elő, akkor ebben az esetben a megengedett zaj szint az ábrán ferde vonalakkal jelölt résznek megfelelő szint lehet. Megjegyezzük, hogy a jelen foganatosítási módnál a minimális hallhatósági görbe 4 kHz-es szintje úgy van beállítva, hogy megfeleljen a például 20 bitnek megfelelő minimális szintnek. A 6. ábrán az SS jelspektrum együtt látható.

A 20 zajszinthelyesbítő áramkör a 19 kivonóáramkörtől kapott megengedett zaj szintet helyesbíti a 28 helyesbítési értéket meghatározó áramkörtől kapott úgynevezett egyenhangossági görbe információja alapján. A 28 helyesbítési értéket meghatározó áramkör tehát az úgynevezett egyenhangossági görbe alapján helyesbítési értékinformációt ad ki a 19 kivonóáramkörtöl kapott megengedett zajszint helyesbítéséhez. Ez a helyesbítési értékadat a 20 zajszinthelyesbítő áramkörre jut. így helyesbítést hajtunk végre, aminél figyelembevesszük a 19 kivonóáramkörtől kapott megengedett zaj szint egyenhangossági görbéjét. Megjegyezzük, hogy az egyenhangossági görbe az emberi hallóérzékkel kapcsolatos. Ezt a görbét úgy kapjuk, hogy különböző frekvenciákon meghatározzuk azokat a hangnyomásokat, amiknél a hangot ugyanolyan erősséggel lehet hallani, mint például az 1 kHz-es tiszta hangot. Az így kapott pontokat összekötjük. Ezt a görbét a hangosság egyenérzékenységi görbéjének is nevezzük. Az egyenhangossági görbe lényegében megegyezik az RC minimális hallhatósági görbével, ami a 6. ábrán látható. Eszerint az egyenhangossági görbe szerint például a 4 kHz közelében lévő hangot akkor is ugyanolyan erősséggel halljuk, mint az 1 kHz-es hangot, ha annak hangnyomása az 1 kHz-es hanghoz képest 8...10 dB-lel alacsonyabb. Ezzel szemben 50 kHz közelében a hangot akkor sem halljuk, ha a hangnyomás az 1 kHz-es hangéhoz képest körülbelül 15 dB-lel nagyobb. Ebből belátható, hogy célszerű, ha a minimális hallhatósági görbe szintje (megengedett zajszint) felett zaj frekvenciáját az egyenhangossági görbének megfelelő görbe adja meg. Ezért látható, hogy az emberi hallóérzék jellemzőinek megfelel, ha a megengedett zaj szintet az egyenhangossági görbe figyelembevételével helyesbítjük.

Megjegyezzük, hogy ennél a foganatosítási módnál alkalmazható egy olyan felépítés is, amiben a minimális hallhatósági görbének a fentebb leírt szintetizáló feldolgozását nem végezzük el. Ebben az esetben a minimális hallhatósági görbét szolgáltató 22 generátor és a 18 szintetizáló áramkör feleslegessé válik. A 16 kivonóáramkör kimenőjelén az osztóáramkör dekonvoluciót végez, majd a jelet közvetlenül a 19 kivonóáramkörre visszük át.

A digitális jel kódolására szolgáló eljárás során alkalmazott módszer szerint a bemenő digitális jelet ortogonálisán transzformáljuk. Az ortogonálisán transzformált jelet kritikus sávokba jelösszetevőkre osztjuk. Az egyes kritikus sávok megengedett zaj szintjei alapján adaptívan hozzárendelt bitszámokkal kódoljuk. Az ortogonálisán transzformált jelösszetevőkre alkalmazott blokklebegtető feldolgozás útján kapott lebegő-együtthatókat átvisszük.

A kritikus sáv sávszélességénél kisebb sávszélességű kis blokkok lebegő feldolgozása esetén alkalmazott módszer szerint az egyes kritikus sávok lebegő-együtthatóinak átvitele helyett az egyes kritikus sávok megengedett zaj szintjére vonatkozó információt és a megfelelő kis blokkok szóhosszúság-információját visszük át. Ezzel lehetővé válik a lebegő-együtthatókhoz hozzárendelt bitszám csökkentése.

A kritikus sáv sávszélességénél kisebb sávszélességű kis blokkok lebegő feldolgozása esetén alkalmazott módszer szerint a megfelelő kritikus sávokban lévő kis blokkok közül egy kis blokk szóhosszúság információját visszük át. Ezzel lehetővé válik a szóhosszúság-információ számának csökkentése. Ennek megfelelően nagyobb mértékű bitsűrítést lehet megvalósítani.

A kritikus sáv sávszélességénél kisebb sávszélességű

HU 213 592 Β kis blokkok lebegő feldolgozása esetén alkalmazott módszer szerint az egyes kis blokkokhoz hozzárendelt bitszámnak megfelelő szóhosszúság-információt visszük át és az egyes kritikus sávok lebegöegyütthatói helyett azokra a megengedett zaj szintekre vonatkozó információt visszük át, amiknek a kijelölési tartománya a kritikus sávban lévő jelszinttartománytól egy előre meghatározott szinttel el van tolva az alacsonyabb szint irányában. Ezzel lehetővé válik a megengedett zajszintre vonatkozó információ átviteléhez szükséges bitszám csökkentése. Ez azt jelenti, hogy nagyobb mértékű bit-

Claims

SZABADALMI IGÉNYPONTOK

1. Kódolási eljárás digitális audiojelekhez, komprimált jel előállítására, aminek során egy bemenő digitális jelből spektrális jelösszetevőket származtatunk;

és a spektrális jelösszetevőket kritikus sávokba (B) osztjuk; azzal jellemezve, hogy az egyes kritikus sávokban (B) lévő jelösszetevőket a kritikus sáv (B) sávszélességénél kisebb sávszélességű blokkokra (b) osztjuk;

az egyes blokkok (b) lebegő-együtthatóit (Fc) előállító lebegő-feldolgozást végzünk minden blokkon (b);

a spektrális jelösszetevőket minden blokkban (b), a kritikus sáv (B) megengedett zaj szintje (NL) szerint a blokkhoz (b) rendelt bizonyos számú bittel kvantáljuk, a blokkhoz (b) rendelt bitszámot szóhosszúság-információként (W) azonosítjuk; és a komprimált jelnek a blokkokhoz (b) rendelt szóhosszúság-információt (W), valamint a lebegő-együtthatók (Fc) helyett a kritikus sáv (B) megengedett zajszintjére (NL) vonatkozó információt tekintjük.
2. Kódolási eljárás digitális audiojelekhez, komprimáltjel előállítására, aminek során egy bemenő digitális jelből spektrális jelösszetevőket származtatunk;

és a spektrális jelösszetevőket kritikus sávokba (B) osztjuk; azzal jellemezve, hogy a jelösszetevőket egy több kritikus sáv (B) sávszélességével azonos sávszélességű blokkra (b) osztjuk;

a blokk (b) lebegőegyütthatóját (Fc) előállító lebegő feldolgozást végzünk a blokkon (b); és a spektrális jelösszetevőket a kritikus sávokban (B) adaptívan hozzárendelt számú bittel kvantáljuk.
3. Az 1. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a bemenő digitális jelből spektrális jelösszetevőket származtatunk, ezt egy ortogonális transzformációval, egy diszkrét koszinusz transzformációval (DCT) végezzük.
4. Az 1. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a spektrális jelösszetevőket kritikus sávokba (B) osztjuk, a kritikus sávot (B) a 0 és 22 kHz közötti frekvenciasávban 25 sávra osztjuk, amelyeknek a sávszélessége a magasabb frekvenciák felé növekszik.
5. Az 1. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a spektrális jelösszetevőket minden blokkban (b) kvantáljuk, a következő lépéseket hajtjuk végre:

a megengedett zaj szintet (NL) a spektrális jelösszetevőkből számítjuk;

minden egyes blokkhoz (b) egy magnitúdó együtthatót számítunk ki a blokkban (b) levő spektrális jelösszetevőkből; és a spektrális jelösszetevők kvantálásánál a bitszámot az adott blokk (b) magnitúdó együtthatója és a megengedett zajszint (NL) közötti különbség alapján állapítjuk meg.
6. Az 5. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a bemenő digitális jelből spektrális jelösszetevőket származtatunk, a spektrális jelösszetevők amplitúdó- és fázisértékekből állnak; és amikor minden egyes blokkhoz (b) egy magnitúdó együtthatót számítunk ki, akkor a blokkban (b) levő spektrális jelösszetevők amplitúdó értékeit összegezzük.
7. A 6. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy a megengedett zajszint (NL) számításához:

minden egyes kritikus sávhoz (B) egy magnitúdó együtthatót számítunk ki a kritikus sávban (B) levő spektrális jelösszetevők amplitúdó értékeinek összegzésével; és ezen magnitúdó együtthatón kritikus sávonként (B) konvoluciót végzünk egy előre meghatározott súlyozó függvénnyel, ami által maszkolási spektrummal (MS) való jelleggörbe korrekciót hajtunk végre.
8. Az 1. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy:

a komprimált jelben levő megengedett zajszint (NL) információt durva kvantálással nyerjük; és a komprimált jelbe blokkonként (b) a megengedett zajszint (NL) finom kvantálásával nyert járulékos biteket iktatunk.
9. A 8. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy:

a komprimált jelben levő megengedett zaj szint (NL) információt első bitszámú durva kvantálással nyerjük; és a komprimált jelbe blokkonként (b) további bitszámban a megengedett zaj szint (NL) finom kvantálásával nyert járulékos biteket iktatunk.
10. A 9. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy a durva kvantálási első bitszám 4, és a finom kvantálási további bitszám 2.
11. A 8. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy a megengedett zaj szintre (NL) vonatkozó durva kvantálás és finom kvantálás logaritmikus.
12. A 2. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a bemenő digitális jelből spektrális jelösszetevőket származtatunk, ezt egy ortogonális transzformációval, egy diszkrét koszinusz transzformációval (DCT) végezzük.
13. A 2. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a spektrális jelösszetevőket kritikus sávokba (B) osztjuk, a kritikus sávot (B) a 0 és 22 kHz közötti frekvenciasávban 25 sávra osztjuk, amelyeknek a sávszélessége a magasabb frekvenciák felé növekszik.
14. A 13. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a spektrális jelösszetevőket egy több kritikus sáv (B) sávszélességével azonos sávszélességű blokkra (b) osztjuk,

HU 213 592 Β a blokkbeli (b) spektrális jelösszetevők a frekvenciatartomány alacsony frekveciájú részében vannak.
15. A 2. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a spektrális jelösszetevöket a kritikus sávokban adaptívan hozzárendelt számú bittel kvantáljuk, az adaptívan hozzárendelt bitszámot szóhosszúság-információként (W) azonosítjuk; és a a komprimált jelbe behelyezzük a blokk (b) lebegő-együtthatóját (Fc), mint az egyetlen lebegőegyütthatót (Fc) a blokkhoz (b) tartozó kritikus sávokra (B) nézve, valamint behelyezzük a blokkhoz (b) tartozó kritikus sávokra (B) vonatkozó szóhosszúság-információt (W).
16. A 15. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a spektrális jelösszetevőket kvantáljuk, a következő lépéseket hajtjuk végre:

minden kritikus sávhoz (B) egy magnitúdó együtthatót számítunk ki a kritikus sávban (B) levő spektrális jelösszetevőkből;

a spektrális jelösszetevőkből megengedett zaj szintet (NL) számítunk minden egyes kritikus sávra (B) ; és az adaptívan hozzárendelt bitszámot az egyes kritikus sávok (B) magnitúdó együtthatója és az adott kritikus sávra (B) megengedett zaj szint (NL) közötti különbség alapján állapítjuk meg.
17. A 15. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy abban a lépésben, amelyben a bemenő digitális jelből spektrális jelösszetevőket származtatunk, a spektrális jelösszetevők amplitúdó- és fázisértékekből állnak; és amikor minden egyes kritikus sávhoz (B) egy magnitúdó együtthatót számítunk ki, akkor a kritikus sávban (B) levő spektrális jelösszetevők amplitúdóértékeit összegezzük.
18. A 17. igénypont szerinti kódolási eljárás, azzal jellemezve, hogy a spektrális jelösszetevők kvantálásakor a magnitúdó együtthatón kritikus sávonként (B) konvoluciót végzünk egy előre meghatározott súlyozó függvénnyel, ami által maszkolási spektrummal (MS) való jelleggörbe korrekciót hajtunk végre.