FI110220B

FI110220B - Puhesignaalin kompressio ja rekonstruktio

Info

Publication number: FI110220B
Application number: FI933182A
Authority: FI
Inventors: Ari Sinisalo
Original assignee: Nokia Corp
Priority date: 1993-07-13
Filing date: 1993-07-13
Publication date: 2002-12-13
Also published as: GB9414078D0; GB2280827B; FI933182A; GB2280827A; FI933182A0

Description

110220 ί

Puhesignaalin kompressio ja rekonstruktio - Komprimering och rekonstrue- | ring av talsignal j

Keksintö kohdistuu patenttivaatimuksen 1 johdannon mukaiseen menetelmään pu-5 hesignaalin kompressoimiseksi sekä edelleen menetelmään näin kompressoidun signaalin rekonstruoimiseksi. Lisäksi keksintö kohdistuu vastaaviin laitteisiin puhesignaalin kompressoimiseksi ja rekonstruoimiseksi.

Digitaalisen signaalin kompressiolla tarkoitetaan signaalin pakkaamista kompressioalgoritmin avulla sellaiseen muotoon, että käsiteltävän tiedon määrä vähenee 10 oleellisesti. Yleensä signaalia vastaava tietomäärä pyritään puristamaan (engl. compress) esimerkiksi l/10:aantai l/20:aan alkuperäisestä tietomäärästä. Kompressio-algoritmi valitaan yleensä käyttötarkoituksen mukaan. Audioalueen signaaleille, erityisesti puheelle, on olemassa omat kompressioalgoritminsa, samoin kuvankäsittelyyn.

15 Signaalin rekonstruktiolla tarkoitetaan tässä tapauksessa kompressoidun signaalin purkamista alkuperäiseen muotoon. Rekonstruktion asemasta käytetään myös termiä dekompressio (engl. decompress). Dekompressioon käytetään periaatteessa samaa algoritmia kuin kompressioon, mutta käänteisessä järjestyksessä. Tyypillisesti kompressio-dekompressioalgoritmin soveltaminen liittyy signaalin siirtoon tietolii-20 kennekanavassa, esimerkiksi puhelin- tai dataverkossa, lähettäjältä vastaanottajalle. ;··· Signaali kompressoidaan ennen lähetystä ja dekompressoidaan vastaanottopäässä.

Signaalin siirto tehostuu, sillä samalle siirtokaistanleveydelle saadaan sopimaan : ·. ·. enemmän tietoa. Töinen yleinen kompressio-dekompressioalgoritmin sovelluskohde on signaalin tallennus. Signaali kompressoidaan tallennettaessa esim. levykkeelle ja 25 vastaavasti rekonstruoidaan lukuvaiheessa tallennuskapasiteetin säästämiseksi. Käytännölliset kompressioalgoritmit eivät ole häviöttömiä, joitakin poikkeuksia lukuun-' · ': ottamatta, joten rekonstruoitu signaali ei ole täysin identtinen alkuperäisen signaalin kanssa.

Kompressiosuhteella tarkoitetaan kompressoimattoman signaalin tietomäärän suh- I ♦ 30 detta kompressoidun signaalin tietomäärään. Kompressiosuhde on tavallisesti algo- :' ·.. riimin valinnainen muuttuja ja se määritellään signaalin käyttötarkoitukseen nähden : * ·. i sopivaksi. Kompressointialgoritmit aiheuttavat jo sinänsä jonkin verran häviöitä ai- • » kuperäiseen signaaliin nähden. Kompressiosuhteen kasvattaminen lisää häviöiden määrää. Esimerkiksi puhesignaalin siirrossa voidaan käyttää suuria kompressiosuh- 2 110220 teitä, jos laadun kriteeriksi valitaan pelkästään ymmärrettävyys ja painotetaan erityisesti lopputuloksena saatavaa vähäistä tietomäärää. Toisaalta asetettaessa laadun kriteeriksi ymmärrettävyyden lisäksi äänen värin ja sävyn säilyminen joudutaan todennäköisesti tyytymään pieneen kompressiosuhteeseen, sillä signaalin yksityis-5 kohdat eivät ole suurilla kompressiosuhteilla enää toistettavissa.

Puhesignaalin kompressio perustuu yleensä signaalin koodaamiseen, ts. erityyppisille signaalimuodoille määritellään omat koodinsa, jossa koodin sisältämä tietomäärä on alkuperäisen signaalin tietomäärää pienempi. Digitaalinen signaalinkäsittely on mahdollistanut sofistikoitujen puhekooderien kehittämisen, joissa käytetään 10 hyväksi näytteistetyn puheen näytteiden välisiä riippuvuuksia: lyhyen aikavälin ennustusta ja pitkän aikavälin ennustusta. Lyhyen aikavälin ennustuksessa käytettäviä koodausalgoritmeja nimitetään lineaarisen ennustuksen koodaukseksi (Linear Predictive Coding, LPC) ja ne tutkivat peräkkäisten näytteiden korrelaatiota, kun taas pitkän aikavälin ennustuksessa (Long Term Prediction, LTP) käytettävät algoritmit 15 tutkivat pitkän aikavälin korrelaatiota perättäisten perustaajuussegmenttien välillä. Pitkän aikavälin ennustusta sovelletaan Regular Pulse Excitation - Long Term Prediction (RPE- LTP) -kooderissa, jossa näytteenotto tapahtuu 8 kHz:n taajuudella ja koodauksen tuloksena saadaan 20 ms:n pituisia 260 bittiä sisältäviä kehyksiä. Toinen merkittävä kooderi käyttää koodiherätteisen lineaarisen ennustuksen, toiselta 20 nimeltään stokastisen koodauksen, koodausalgoritmin variaatiota nk. VSELP (Vec-’·.· tor- Sum Excited Linear Excited Predictive Coding) -koodausalgoritmia, jossa käy-. y. tetään laskentaa nopeuttavaa ns. koodikirjaa.

• · · · * ' Puhesignaalille kehitetyt kompressioalgoritmit eivät ole kovin tehokkaita. Algorit- : V min kompressiosuhteeksi saadaan enimmillään n. 10-15 eli kompressoitu signaali • '.*· 25 on 1/10-1/15 alkuperäisen signaalin tietomäärästä. Keksinnön kehitystyössä on py- : : : ritty saamaan aikaan menetelmä, jolla puhesignaalin kompressiosuhde saadaan suu remmaksi kuin, mihin tekniikan tason menetelmät kykenevät. Tämän tavoitteen saavuttamiseksi on keksinnön mukaiselle kompressiomenetelmälle tunnusomaista • * .···. se, mikä on esitetty patenttivaatimuksessa 1, kun taas rekonstruointimenetelmän • 30 tunnusmerkit selviävät vaatimuksesta 2.

Keksinnön menetelmää soveltamalla puhesignaalin kompressiosuhde voidaan nostaa vähintään kaksinkertaiseksi tekniikan tason kompressioalgoritmeihin verrattuna :. . puheen ymmärrettävyyden ja äänen persoonallisten piirteiden siitä kärsimättä. Me- ‘ ‘: netelmä perustuu kaksiulotteisten, kuvankäsittelyyn kehitettyjen algoritmien sovel- 35 tamiseen. Perusajatuksena on muuntaa yksiulotteinen puhesignaali kehyksittäin ai katasosta taajuustasoon käyttäen aikataso/taajuustasomuunnoksessa jotain tunnettua 3 110220 muunnosalgoritmia. Edullisen suoritusmuodon mukaan muunnos suoritetaan FFT-algoritmin (Fast Fourier Transform) avulla, koska se on yleisin ja helpoin tapa muuntaa aikataso taajuustasoon. Peräkkäisiä kehyksiä kerätään puhesignaalista haluttu määrä ja muodostetaan kaksiulotteinen kuvamatriisi (spektrogrammi), jossa 5 taajuustason kehykset esitetään ajan funktiona. Kuvamatriisin esittämä kuva kompressoidaan tehokkaalla kuvankäsittelyyn kehitetyllä kompressioalgoritmilla. Puheen rekonstruktio tapahtuu päinvastaisessa järjestyksessä käyttäen dekompressiota ja käänteis-FFT-muunnosta.

FFT- eli nopea Fourier-muunnos toteuttaa matematiikasta tunnetun diskreetin Fou-10 rier-muunnoksen likiarvoitusta käyttäen, jolloin muunnoksen sisältämien kertolaskujen määrä on pystytty pienentämään naista 2nlogn:iin, jossa n on laskentapisteiden lukumäärä. Fourier-muunnoksen avulla voidaan kuvata aikatason signaali taajuustasossa. Fourier-muunnettu signaali sisältää sekä reaali- että imaginäärikomponentit. Fourier-muunnetun signaalin käänteismuunnos tuottaa lop-15 putulokseksi alkuperäisen signaalin. FFT-muunnin on nykyään kaupallinen komponentti.

Eräässä edullisessa sovellutusmuodossa kehyksen Fourier-muunnospisteiden lukumäärä ja muunnettavien kehysten lukumäärä on sama, joka on myöhemmin tehtävän kompression kannalta optimi valinta.

20 Eräässä edullisessa sovellutusmuodossa kompressioalgoritmina käytetään JPEG-:··· algoritmia. JPEG (Joint Photographic Experts Group) on ISO:n standardoima kompressioalgoritmi jatkuvasävyisille pysäytyskuville. JPEG on kehitetty kom-··.·. pressoimaan väri- tai harmaasävykuvia, jotka esittävät ns. luonnonmukaisia maise-mia hitaasti muuttuvine sävyineen. Keksinnön kuvamatriisi muodostaa JPEG.lle * 25 soveltuvan harmaasävykuvan. JPEG:in etuna muihin kompressioalgoritmeihin näh den on, että koska se on standardoitu ovat laite- ja piirivalmistajat kiinnostuneita ’ · ’ · valmistamaan algoritmin toteuttavia komponentteja.

. ‘, Eräässä edullisessa sovellutusmuodossa FFT-muunnoksen ulostulon reaali- ja ima- ginäärikehysten sijasta voidaan kuvamatriisin muodostamiseen käyttää vastaavia ' 30 amplitudi- ja vaihekehyksiä tai myöskin pelkkää amplitudikehystä.

’ . . Keksinnön mukaisen kompressiolaitteen sekä rekonstruktiolaitteen tunnusmerkit * ' selviävät patenttivaatimuksesta 10 sekä vastaavasti vaatimuksesta 11.

4 110220

Keksinnön mukaista menetelmää ja laitetta kuvataan tarkemmin liitteenä olevissa piirustuksissa, joissa kuva 1 esittää puheen muuntamisen kuvamuotoon FFT-muunnoksen avulla kuva 2 esittää kompressioon ja rekonstruktioon liittyvän signaaliketjun ja 5 kuva 3 esittää esimerkin JPEG-algoritmin soveltamisesta eri parametreillä.

Keksinnön mukaisen kompressiomenetelmän ensimmäinen vaihe on yksiulotteisen puhesignaalin muuntaminen kaksiulotteiseksi kuvaksi. Periaate on esitetty kuvassa 1. Puhesignaali syötetään FFT-muuntimelle, joka kuvan mukaisessa esimerkissä laskee muunnoksen puhesignaalin kehyksen 256 pisteelle, n = 256. Fourier-muun-10 nettu reaalinen puhesignaali sisältää sekä reaali- että imaginääriosan. Kuvamatriisi voidaan muodostaa käyttäen hyväksi sekä reaali- että imaginääriosaa tai vastaavia amplitudi- ja vaihekehyksiä tai pelkästään amplitudikehystä. Kuvan 1 kaksiulotteinen esitys sisältää ainoastaan amplitudikehyksen. Vaaka-akseli kuvaa aikaa, joka koostuu n-mittaisista peräkkäisistä kehyksistä, joissa Fourier-muunnos suoritetaan. 15 Pystyakseli kuvaa taajuuden vaihtelua eri pisteissä. Kuva on käytännössä amplitu-dikehysten intensiteettikuva. Koska signaalin taajuustason esitys on aina symmetrinen välillä -1/n ... 1/n, voidaan FFT-muuntimen ulostulokehys puolittaa, siis valita pelkästään positiivinen spektrin osa, ilman haittoja.

, . Menetelmän toisessa vaiheessa kuva kompressoidaan olemassa olevia kuvakom- ; ’· 20 pressioalgoritmeja käyttäen. Koetilanteissa on standardoidulla JPEG-algoritmilla • · · ·'· päästy hyviin kompressiosuhteisiin, esimerkiksi 20-30. JPEG ei ole häviötön, joten tietty määrä kuvan yksityiskohtia menetetään. Kuvan 2 esittämästä signaaliketjusta • · · • V voidaan helposti erottaa menetelmän eri vaiheet. Alkuperäinen puhesignaali johde- :*·*: taan FFT-muuntimelle, joka muuntaa aikatason signaalikehyksen taajuustasoon.

25 Ennen varsinaista muunnosta FFT-muunnin myös kvantisoi signaalin tai signaalin kvantisointi voidaan suorittaa erillisellä kvantisointipiirillä. Taajuustason kehyksistä : kerätään kuvamatriisi, jonka dimensiot ovat m, kehysten lukumäärä aikatasossa, ja .···’ n, aikatason kehyksiä vastaavien taajuuksien lukumäärä. Kuvamatriisi vastaa käy- tännössä muutaman sekunnin mittaista otosta puhesignaalista. Kuvan 2 FFT-muun-:.· : 30 nin laskee muunnoksen kehyksen 256 pisteelle, n=256. On edullista valita kerättä-•., / vien kehysten lukumääräksi samaksi kuin kehyksen pituus, jolloin, m = 256. Komp-ressio, JPEG, suoritetaan ennen signaalin siirtoa tai tallennusta, jota kuvaa lohko ; ’siirto/tallennus’. Dekompressio, IJPEG (Inverse JPEG), suoritetaan signaalin vas-’ ‘ taanoton/lukuoperaation yhteydessä. Dekompressio tuottaa tulokseksi periaatteessa 35 samanlaisen, mutta kompression ja siirron aiheuttamien häviöiden takia yksityiskohdiltaan hiukan muuntuneen, kuvamatriisin kuin signaaliketjun alkupäässä. Koe- 5 110220 tilanteissa suurimmat häviöt tapahtuivat signaalin siirtotiessä, kompressoinnin itsessään aiheuttamat häviöt olivat sen sijaan pieniä. Kuvamatriisi muunnetaan takaisin yksiulotteiseksi signaaliksi käänteis-FFT-muunnoksen, IFFT, avulla.

Esitettyä menetelmää on kokeiltu JPEG-algoritmilla erilaisilla kompressiosuhteilla 5 käyttäen sekä amplitudikehyksistä koostettua kuvaa että erillisiä reaali- ja imaginää-rikehyksistä koostettuja kuvia. Pelkästään amplitudikehyksen käyttäminen tekee laskennasta yksinkertaisemman. Tosin vaihekehyksen poisjättäminen aiheuttaa selvästi erottuvia häiriöitä rekonstruoidussa signaalissa. Sekä reaali- että imaginääri-kuvien käyttäminen tuottaa laadullisesti parhaimman lopputuloksen rekonstruktio-10 vaiheessa, mutta kompressiosuhde jää alle viiden ilman että puheen tunnistettavuus menetetään. Pelkän amplitudikehyksen käytöllä päästään hyvään kompressiosuhteeseen 20:1-30:1 puheen tunnistettavuuden säilyessä. Vaikka JPEG-algoritmi aiheuttaa häviöitä taajuustason signaaliin, niiden vaikutus aikatason puhesignaaliin on yllättävän vähäinen.

15 Suoritetussa kokeessa todennettiin, että signaalin siirto ilman kompressointia aiheutti enemmän häiriötä signaaliin verrattuna kompressoinnin aiheuttamiin lisähäiriöi-hin. Algoritmeja parantamalla voidaan kompression aiheuttamia häiriöitä pienentää lisää.

Kuvan 3 taulukossa on esitetty koetuloksia kuuden sekunnin pituisen 8-bittisen pu- • ” 20 hesignaalin kompressiosta käytettäessä JPEG-algoritmia. JPEG-algoritmille voidaan antaa parametrina haluttu kuvan yksityiskohtien säilyvyys. Mitä vähemmän yksi-tyiskohtia säilytetään, sitä suuremmaksi kompressiosuhde muodostuu. Taulukon : · .* tiedostonimessä esiintyvä luku, esim. r_90, kuvaa prosentteina yksityiskohtien säi- : ’ · ‘: lymisastetta. Arvolla r_60 puhe on vielä selvästi ymmärrettävää ja puhuja on tunnis- 25 tettavissa. Taulukon muut sarakkeet kuvaavat signaalia vastaavaa tietomäärää (Ko-ko/Tavu, Tavua/s, Bittiä/s) eri kompressiosuhteilla. Patenttivaatimuksen 1 mukai-: nen menetelmä ei rajoita kompressioalgoritmia edellä esimerkinomaisesti esitettyyn !. / JPEG-algoritmiin.

• k : Keksinnön mukaisella menetelmällä saadaan puhesignaali pakattua jopa l/30:aan • ·« · .*··. 30 alkuperäisen signaalin muodostamasta tietomäärästä olemassa olevia ja tunnettuja menetelmiä hyväksi käyttäen puheen ja puhujan tunnistettavuuden säilyessä. Mene-i " telmä on edullinen erityisesti puheen siirrossa ja puheen tallennuksessa. Laskennal- :.' · i lisesti on todettu, että normaalille 1.44 Mbitin levykkeelle voidaan helposti tallentaa tunti puhetta. Tämä tulos edustaa vähintään kaksinkertaista tietomäärää vertailtaessa 35 puhesignaalille kehitettyjen yksiulotteisten kompressioalgoritmien kanssa. Lisäksi 6 110220 menetelmän avulla pystytään säilyttämään puheen persoonalliset piirteet suurillakin kompressiosuhteilla. Menetelmän haittapuolena on, että se on laskennallisesti raskas useine vaiheineen. Tähän on saatavissa helpotusta piiriteknologian kehityksen myö- tä. Menetelmä ei myöskään sovi reaaliaikaiseen käsittelyyn, sillä kuvamatriisin 5 koostamiseksi puhesignaalia on kerättävä useiden sekuntien ajan ennen varsinaista kompressointia.

Keksinnön mukaisen menetelmän käyttökohteina ovat erityisesti puheentallennus-ja äänipostisovellutukset, jotka eivät vaadi tiukkaa reaaliaikaisuutta. Eräänä tulevaisuuden käyttökohteena voidaan ajatella esimerkiksi mikrotietokoneen multime-10 diaohjelmistoja, joihin puheen siirto ja tallennus liittyy oleellisena osana. Menetelmän soveltamista helpottavat jo nykyään ASIC-piireillä toteutettavat sekä FFT-muuntimet että kuvankäsittelyalgoritmit.

• · • » I * · «M ♦ • ·

Claims

1. Menetelmä puhesignaalin kompressoimiseksi, jossa - puhesignaalista erotetaan valitun mittaisia, peräkkäisiä kehyksiä aikatasossa, ja - johdetaan aikatason kehykset aikataso/taajuustasomuuntimeen, esimerkiksi nope-5 aan Fourier-muuntimeen, jonka ulostulosta saadaan kehykset taajuustasossa, tunnettu siitä, että - järjestetään taajuustason kehykset kuvamatriisiksi eli spektrogrammiksi, jossa taajuustason kehykset esitetään ajan funktiona, ja - johdetaan kuvamatriisi kuvan kompressioalgoritmia toteuttavaan elimeen, jonka 10. ulostulosta saadaan kompressoitu puhesignaali.

2. Menetelmä patenttivaatimuksen 1 mukaisella menetelmällä kompressoidun puhesignaalin rekonstruoimiseksi, tunnettu siitä, että - kompressoitu puhesignaali johdetaan dekompressioalgoritmia toteuttavaan eli-15 meen, jonka ulostulona on taajuustason kehykset ajan funktiona esittävä kuvamatriisi, - erotetaan kuvamatriisista taajuustason kehykset, - johdetaan kehykset taajuustaso/aikatasomuunnoksen suorittavaan muuntimeen, jonka ulostulona saadaan aikatason puhesignaalin muodostavat kehykset. 20 • ·

3. Patenttivaatimuksen 2 mukainen menetelmä, tunnettu siitä, että taajuusta- * so/aikatasomuunnin on käänteisen Fourier-muunnoksen tekevä muunnin. • · · ·

4. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että kompressio-25 algoritmi on sinänsä tunnettu JPEG (Joint Photographic Experts Group) ja dekom- .··,·. pressioalgoritmi on sinänsä tunnettu IJPEG (Inverse JPEG).

5. Patenttivaatimuksen 1 tai 3 mukainen menetelmä, tunnettu siitä, että taa-;,.' juustason kehys koostuu erillisistä reaali- ja imaginaarikehyksistä. *·;·: 30

: 6. Patenttivaatimuksen 1 tai 3 mukainen menetelmä, tunnettu siitä, että taa- : ” ’: juustason kehys koostuu erillisistä amplitudi- ja vaihekehyksistä. y ’ 7. Patenttivaatimuksen 1 tai 3 mukainen menetelmä, tunnettu siitä, että taa- ' · ': 35 juustason kehys muodostuu pelkästään amplitudikehyksestä. 110220 O

7 110220

8. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että kaksiulotteisen kuvamatriisin muodostamiseen käytetään taajuustason kehyksen puolikasta.

9. Patenttivaatimuksen 1 tai 3 mukainen menetelmä, tunnettu siitä, että kehyk-5 sen Fourier-muunnospisteiden lukumäärä ja muunnettavien kehysten lukumäärä on sama, jolloin saadaan neliömäinen kuvamatriisi.

10. Laite puhesignaalin kompressoimiseksi, joka laite käsittää - A/D-muuntimen puhesignaalin muuttamiseksi digitaaliseen muotoon, 10 ensimmäiset välineet puhesignaalin jakamiseksi peräkkäisiin kehyksiin, sekä - ensimmäisen muuntimen, esimerkiksi nopean Fourier-muuntimen, joka toteuttaa aikataso/taajuustasomuunnoksen, tunnettu siitä, että se käsittää - toiset välineet kaksiulotteisen kuvamatriisin muodostamiseksi ensimmäisen muun-15 timen lähtösignaaleista - kolmannet välineet kompressioalgoritmin suorittamiseksi kuvamatriisille ja - muistivälineet väli- ja lopputulosten tallentamiseen.

11. Laite patenttivaatimuksen 10 mukaisella laitteella kompressoidun puhesig-20 naalin rekonstruoimiseksi, tunnettu siitä, että laite käsittää - neljännet välineet dekompressioalgoritmin suorittamiseksi, ; . * - viidennet välineet taajuustason kehysten erottamiseksi kaksiulotteisesta kuvamat- ♦ * ♦ '·'·* riisistä, ‘ * - toisen muuntimen, joka toteuttaa taajuustaso/aikatasomuunnoksen, ί V 25 - kuudennet välineet aikatason kehysten yhdistämiseksi peräkkäin, • V - D/A-muuntimen digitaalisen puhesignaalin muuntamiseksi analogiseen muotoon, : i : sekä - muistivälineet välitulosten tallentamiseen. • »· .••*.30

12. Patenttivaatimuksen 11 mukainen laite, tunnettu siitä, että toinen muunnin ·’ on nopean käänteisen Fourier-muunnoksen suorittava muunnin. • · · »

13. Patenttivaatimuksen 10 tai 11 mukainen laite, tunnettu siitä, että kolmannet : ·. välineet ovat JPEG-algoritmin toteuttavat välineet ja neljännet välineet ovat IJPEG- .·. : 35 algoritmin toteuttavat välineet. 9 110220