FI119955B

FI119955B - Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa

Info

Publication number: FI119955B
Application number: FI20011329A
Authority: FI
Inventors: Ari Heikkinen
Original assignee: Nokia Corp
Priority date: 2001-06-21
Filing date: 2001-06-21
Publication date: 2009-05-15
Also published as: CN100489966C; US7089180B2; US20030055633A1; WO2003001172A1; FI20011329A0; CN1650156A; FI20011329A; EP1397655A1

Description

-1 -

Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi- puhekoodereissa

Keksinnön alue 5

Esillä oleva keksintö liittyy yleisesti puheenkoodaukseen ja äänisignaaleihin sekä erityisemmin parannettuun herätteen mallintamisproseduuriin synteesi-analyysi-koodereissa.

10 Keksinnön tausta

Puheen ja äänen koodausalgoritmeilla on paljon erilaisia sovelluksia langattomassa viestinnässä, multimediassa ja äänentallennusjärjestelmissä. Koodausalgoritmien kehittymistä edistää tarve säästää siirto- ja tallennuskapasiteettia sekä pitää samalla 15 syntetisoidun signaalin laatu korkeana. Nämä vaatimukset ovat usein varsin ristiriitaisia, ja yleensä joudutaankin tekemään kompromisseja kapasiteetin ja laadun välillä. Puheenkoodaus on erityisen tärkeää matkapuhelinjärjestelmissä, koska täydellisen puheen spektrin siirtäminen vaatii huomattavasti kaistanleveyttä ympäristössä, jossa spektriresurssit ovat suhteellisen rajoittuneet. Näin ollen hyödynnetään signaalin 20 kompressointitekniikoita käyttämällä puheen koodausta ja dekoodausta. Tämä on välttämätöntä, jotta puhetta voitaisiin siirtää tehokkaasti pienillä bittinopeuksilla.

Kuviossa 1 on esitetty esimerkkiproseduuri digitaalisten äänisignaalien siirtämisestä ja/tai tallentamisesta toistettavaksi tämän jälkeen uudelleen lähtöpäässä. Puhesignaali y(k) 25 syötetään kooderiin 100, joka koodaa signaalin alkuperäisen signaalin koodatuksi digitaaliseksi esitykseksi. Tuloksena oleva bittivirta lähetetään viestintäkanavaan (esimerkiksi radiokanavalle) tai tallennusvälineeseen 110, esimerkiksi puolijohdemuistiin tai magneettiseen tai optiseen tallennusvälineeseen. Kanavasta/tallennusvälineestä 110 bittivirta syötetään dekooderiin 120, jossa se dekoodataan ja siitä tuotetaan alkuperäinen 30 signaali y(k) lähtösignaalin y(k) muodossa.

-2-

Puheenkoodausalgoritmit ja -järjestelmät voidaan luokitella eri tavoin perusteista riippuen. Ne voidaan luokitella esimerkiksi aaltomuotokoodereihin, parametrisiin koodereihin ja hybridikoodereihin. Aaltomuotokooderit pyrkivät nimensä mukaisesti 5 säilyttämään koodattavan aaltomuodon mahdollisimman tarkasti, mutta ne eivät kiinnitä juurikaan huomiota puhesignaalin ominaisuuksiin. Aaltomuotokoodereissa on myös se etu, että ne ovat suhteellisen yksinkertaisia rakenteeltaan ja toimivat tyypillisesti hyvin meluisassa ympäristössä. Ne vaativat yleensä kuitenkin suhteellisen suuria bittinopeuksia laadukkaan puheen tuottamiseen. Hybridikooderit käyttävät aaltomuototekniikoiden ja 10 parametristen tekniikoiden yhdistelmää, eli ne käyttävät tyypillisesti parametrisia menetelmiä esimerkiksi ääniväylän mallintamiseen LPC-suodattimella. Suodattimen tulosignaali koodataan tämän jälkeen menetelmällä, joka voitaisiin luokitella aaltomuodon koodausmenetelmäksi. Hybridipuhekoodereita käytetään nykyisin laajalti tuottamaan lähes lankapuhelimen tasoista puhelaatua bittinopeuksilla, jotka vaihtelevat 15 välillä 8-12 kbps.

Monissa nykyisissä hybridikoodereissa siirretyt parametrit määritetään synteesi-analyysi (AbS) -menetelmällä, jossa valittu vääristymisperuste minimoidaan alkuperäisen puhesignaalin ja rekonstruoidun puheen välillä kutakin mahdollista parametriarvoa 20 vastaavasti. Näitä koodereita kutsutaankin usein AbS-puhekoodereiksi. Esimerkkinä tyypillisessä AbS-kooderissa ehdotettu heräte otetaan koodikiijasta ja suodatetaan LPC-suodattimen läpi, ja suodatetun signaalin ja tulosignaalin välinen virhe lasketaan niin, että pienimmän virheen tarjoava vaihtoehto tulee valituksi.

25 Tyypillisessä AbS-puhekooderissa puheen tulosignaali käsitellään kehyksinä. Kehyksen pituus on yleensä 10-30 ms, ja saatavilla on myös seuraavan kehyksen 5-15 ms:n tähystyssegmentti. Jokaisessa kehyksessä kooderi määrittää puhesignaalin parametrisen esityksen. Parametrit kvantisoidaan ja siirretään viestintäkanavan läpi tai tallennetaan tallennusvälineeseen digitaalisessa muodossa. Vastaanottavassa päässä dekooderi 30 muodostaa alkuperäistä signaalia edustavan syntetisoidun puhesignaalin vastaanotettujen parametrien perusteella.

-3 -

Yksi tärkeä synteesi-analyysi-kooderin luokka on CELP (Code Excited Linear Predictive) -puhekooderi, jota käytetään laajalti monissa langattomissa digitaalisissa tiedonsiirtojärjcstelmissä. CELP on tehokas suljetun silmukan synteesi-analyysi-5 koodausmenetelmä, joka on osoittanut toimivansa hyvin pienten bittinopeusten järjestelmissä (4-16 kbps). CELP-koodereissa puhe segmentoidaan kehyksiksi (esim. 10-30 ms) niin, että jokaiselle kehykselle määritetään ja kvantisoidaan optimaalinen lineaarisen ennustuksen ja äänenkorkeuden suodatusparametrien sarja. Kukin puhekehys jaetaan edelleen useisiin alikehyksiin (esimerkiksi 5 ms), ja jokaista alikehystä kohti 10 haetaan herätekoodikiijasta tulovektori kvantisoituun enn ustinjärj cstelmään, joka tuottaa alkuperäisen puhesignaalin parhaiten.

Useimpien AbS-koodereiden perusrakenne on varsin samanlainen. Niissä on tyypillisesti tietyntyyppinen lineaarinen ennustava koodaustekniikka (LPC), esimerkiksi sarjassa 15 olevat aikavariantti äänenkorkeuden ennustin ja LPC-suodatin. Kaikkinapaista (All-Pole) LPC-suodatinta: —-—=-r-, (1) A(q,s) l + a^sjg 1 +a2(s)q 2 +... + an (s)q n° 20 jossa q~l on yksikköviiveoperaattori ja s alikehyksen indeksi, käytetään mallintamaan puhesignaalin lyhytaikaista spektrin yleistä muotoa. LPC-suodattimen asteluku na on tyypillisesti 8-12. Äänenkorkeuden ennustin, jonka muoto on B(q,s) 1 -b(s)q~x(s) ^ ^ 25 käyttää puheen äänenkorkeuden jaksollisuutta spektrin hienorakenteen mallintamiseen. Tyypillisesti vahvistus b(s) rajoittuu intervallin [0, 1.2] ja äänenkorkeusviive τ(.ν) -4- intervallin [20, 140] näytteisiin (jos näytteenottotaajuus on 8 000 Hz). Äänenkorkeuden ennustimesta käytetään myös nimitystä pitkän aikavälin suodatin eli LTP-suodatin.

Kuviossa 2 on esitetty yksinkertaistettuna funktionaalisena lohkokaaviona esimerkki 5 AbS-puhekooderista. herätesignaali uc(k) syntyy herätegeneraattorissa 200. Herätegeneraattorista 200 käytetään usein nimitystä herätekoodikiija, jossa signaali kerrotaan vahvistuksella g(s) 205 ja muodostaa tulosignaalin suodatinsarjaan 225. Takaisinkytkentäsihnukka, joka koostuu viiveestä q~'(s) 215 ja vahvistuksesta b(s) 210, edustaa LTP-suodatinta. LTP-suodatin mallintaa signaalin jaksollisuutta, joka on 10 erityisen tärkeä soinnillisessa puheessa, jossa aiempaa jaksollista puhetta käytetään nykyisen alikehyksen puheen likimääränä ja virhe koodataan kiinteällä herätteellä, esimerkiksi algebrallisella koodikirjalla. Suodatinsaijan 225 ulostulo on syntetisoitu puhesignaali y(k). Kooderissa virhesignaali e(k) (keskimääräinen neliöity painotettu virhe) lasketaan vähentämällä syntetisoitu puhesignaali y(k) alkuperäisestä 15 puhesignaalista y(k). Virheen minimointiproseduuria 235 käytetään, kun valitaan herätegeneraattorin 200 tuottama paras herätesignaali. Tyypillisesti virhesignaaliin sovelletaan havainnointipainotussuodatinta ennen virheen minimointiproseduuria, jotta virhesignaalin spektri voitaisiin muotoilla kuulumattomammaksi.

20 Vaikka AbS-puhekooderit ovat yleensä hyvin suorituskykyisiä pienillä bittinopeuksilla, ne ovat laskennallisesti suhteellisen vaativia. Niiden toinen ominaisuus on se, että pienillä bittinopeuksilla (esim. alle 4 kbps) sovittaminen alkuperäisen puheen aaltomuotoon rajoittaa pahasti koodauksen tehon parantamista. Tämä pätee yleensä puheen koodaukseen: niin soinnillisen, soinnittoman kuin klusiilisenkin puheen. Vaikka 25 soinnillisen puheen mallintamisen parantamiseksi onkin esitetty ratkaisuja, merkittäviä parannuksia ei-stationaarisen puheen, esimerkiksi klusiilien, mallintamiseen ei ole vielä esitetty. Kuten alan asiantuntijat tietävät, klusiileilla ja soinnittomalla puheella on taipumusta katkonaisuuteen (esimerkkinä umpiäänteet, kuten /p/, Iki ja lii). Nämä puheaaltomuodot ovat erityisen hankalia mallintaa tarkasti tekniikan tason mukaisissa 30 alhaisen bittinopeuden AbS-koodereissa, koska alkuperäisten ja koodattujen -5 - herätesignaalien välillä on usein selkeä yhteensopimattomuus johtuen siitä, että bittejä ei ole riittävästi alkuperäisen herätteen tarkkaan mallintamiseen. Yleisen aaltomuotoprofiilin erot aiheuttavat sen, että koodatun herätteen energia on paljon pienempi kuin ideaalisen herätteen parametrin arviointimenetelmästä johtuen. Tämän seurauksena syntetisoitu 5 puhe voi usein kuulostaa luonnottomalta hyvin matalalla energiatasolla.

Kuviossa 3 on esitetty tuloksena oleva CELP-kooderin synteettinen heräte käytettäessä koodikiijaa, jolla on suhteellisen korkea pulssin populaatiotiheys (koodikirja 1) eli tiheä pulssin paikkaristikko. Esillä on myös tuloksena oleva synteettinen heräte käytettäessä 10 koodikirjaa, jolla on suhteellisesti pienempi pulssin populaatiotiheys (koodikirja 2). Yläkaaviossa A on esitetty äänen /p/ ideaalinen heräte. Molemmissa koodikirjoissa käytetään kahta positiivista tai negatiivista pulssia 40 näytteen alikehyksen päällä. Pulssien esimerkkisijainnit ja -muutokset yksittäisissä koodikirjoissa on esitetty erikseen taulukoissa 1 ja 2, tässä järjestyksessä. Kuten alakaaviosta C voidaan nähdä, 15 herätesignaalilla, joka on muodostettu käyttämällä taulukon 2 koodikirjaa, on paljon matalampi energiataso kuin ideaalisella herätteellä (yläkaavio), koska pulssien mahdolliset sijainnit eivät vastaa hyvin pulssin sijainteja ideaalisessa herätteessä. Koodikirjaa 1 käytettäessä energiataso on sitä vastoin huomattavasti korkeampi, koska pulssien sijainnit vastaavat tarkemmin ideaalista herätettä, kuten keskikaaviossa B on 20 esitetty. Molemmissa koodikirjoissa käytetään vain yhtä pulssivahvistusta alikehystä kohti, ja mukautuvia koodikirjoja ei käytetä.

Pulssi Paikat 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24,26, 28, 30, 32, 34, 36, 38 0 1 1, 3, 5, 7,9, 11, 13, 15, 17, 19,21,23,25,27,29,31,33,35,37,39 TAULUKKO 1 -6-

Pulssi Paikat O, 4, 8, 12, 16, 20, 24, 28, 32, 36 0 2, 6, 10, 14, 18, 22, 26, 30, 34, 38 TAULUKKO 2 5 Tuloksena oleva energiaero syntetisoitujen herätteiden välillä on selvästi näkyvissä, kun käytetään koodikirjaa, jossa on vähemmän pulssin paikkoja, jolloin matalamman energiatason heräte tuottaa tulokseksi epätyydyttävän ja tuskin kuuluvan äänen. Aiemmin esitetyn valossa tarvitaan parannettu menetelmä, jonka avulla AbS-puhekooderit pystyvät tuottamaan tarkemmin laadukasta puhetta puhesignaaleissa, jotka sisältävät ei-10 stationaarista puhetta.

Yhteenveto keksinnöstä

Esillä oleva keksintö kuvaa menetelmän puhesignaalin koodaamiseksi ja lähettämiseksi 15 sekä vastaavan kooderin sekä laitteen. Menetelmille, kooderille ja laitteelle tunnusomaista on liitettyjen patenttivaatimusten itsenäisten patenttivaatimusten tunnusmerkkiosassa kuvatut seikat. Esillä olevan keksinnön lisäsovelluksia kuvataan liitetyissä epäitsenäisissä vaatimuksissa.

20 Kuvien lyhyt esittely

Keksintö sekä siihen liittyvät muut tavoitteet ja edut on ehkä helpointa ymmärtää viittaamalla seuraavaan kuvaukseen, johon liittyvät seuraavat kuvat: -7-

Kuviossa 1 on esitetty esimerkkinä digitaalisten äänisignaalien siirtäminen ja/tai tallentaminen.

Kuviossa 2 on esitetty yksinkertaistettuna funktionaalisena lohkokaaviona esimerkki 5 synteesi-analyysi (AbS) -puhekooderista.

Kuviossa 3 on esitetty herätesignaalien energiasisällön ero, joka syntyy siitä, että koodikirjoissa on eri määrä pulssin paikkoja.

10 Kuviossa 4 on esitetty lohkokaaviona esimerkki AbS-koodausproseduurista.

Kuviossa 5 on esitetty ideaalinen herätesignaali esillä olevan keksinnön suoritusmuodon mallintamana.

15 Kuviossa 6 on esitetty esimerkki huippukohdan arvokäyrästä esimerkkinä olevalle ideaaliselle herätesignaalille.

Kuviossa 7 on esitetty vaihedispersiosuodatuksen vaikutus koodattuun herätesignaaliin.

20 Kuviossa 8 on esitetty esimerkki laitteesta, jossa käytetään esillä olevan keksinnön mukaista puhekooderia.

Kuviossa 9 on esitetty toiminnallinen peruslohkokaavio esimerkkinä kannettavasta päätelaitteesta, johon sisältyy keksitty puhekooderi.

25

Yksityiskohtainen kuvaus keksinnöstä

Kuten edellä on mainittu, klusiileja tai soinnitonta puhetta sisältävien puhesegmenttien mallintaminen tarkasti aiempien toteutusten mukaisilla AbS-puhekoodereilla on ollut 30 yleensä hankalaa. Korkealaatuisen puheen aikaan saaminen edellyttää hyvää tuntemusta puhesignaaleista ja ihmisaistien ominaisuuksista. Tiedetään esimerkiksi, että tietyntyyppisiä koodausvääristymiä ei havaita, koska signaali peittää ne, ja näin yhdessä signaalin redundanssin kanssa puheen laatua voidaan parantaa pienillä bittinopeuksilla.

-8-

Kuviossa 4 on esitetty lohkokaaviona esimerkki AbS-koodausproseduurista. On syytä 5 huomata, että kaikkia funktionaalisia komponenttilohkoja ei tarvitse välttämättä toteuttaa jokaisessa alikehyksessä. Esimerkiksi IS-641-puhekooderissa kehys jaetaan neljäksi alikehykseksi, joissa esimerkiksi LPC-suodatinparametrit määritetään kerran kehystä kohti, avoimen silmukan viive kaksi kertaa kehystä kohti ja suljetun silmukan viive, LTP-vahvistus, herätesignaali ja sen vahvistus neljä kertaa kehystä kohti. Perusteellisempi 10 esitys IS-641-kooderista on asiakhjassa TIA/EIA IS-641-A, TDMA Cellular/PCS -Radio Interface, Enhanced Full-Rate Voice Codec, Revision A.

Lohkossa 410 LPC-suodattimen kertoimet määritetään puheen tulosignaalin perusteella. Puhesignaali ikkunoidaan tyypillisesti segmenteiksi, ja LPC-suodatinkertoimet 15 määritetään esimerkiksi Levinson-Durbin-algoritmeilla. On syytä huomata, että termi "puhesignaali" voi viitata mihin tahansa signaaliin, joka on johdettu äänisignaalista (esimerkiksi puheesta tai musiikista), ja se voi olla itse puhesignaali tai digitoitu signaali, jäännössignaali jne. Monissa koodereissa LPC-kertoimia ei tyypillisesti määritetä jokaiselle alikehykselle. Tällaisissa tapauksissa kertoimet voidaan interpoloida välissä 20 oleville alikehyksille. Lohkossa 420 tulopuhe suodatetaan A(q, s): 11 a ja tuotetaan LPC-jäännössignaali. LPC-jäännöksen avulla tuotetaan tämän jälkeen uudelleen alkuperäinen puhesignaali, kun se syötetään LPC-suodattimen 1 /A(q, s) läpi. Tämän vuoksi sitä kutsutaan joskus ideaaliseksi herätteeksi.

25 Lohkossa 430 avoimen silmukan viive määritetään etsimällä viivearvo, joka antaa korkeimman autokorrelaatioarvon puheelle tai LPC-jäännössignaalille. Lohkossa 440 kohdesignaali x(k) suljetun silmukan viiveen hakua varten lasketaan vähentämällä LPC-suodattimen nollatulovaste puhesignaalista. Näin voidaan ottaa huomioon LPC-suodattimen alkutilojen vaikutus pehmeästi kehittyvää signaalia varten. Lohkossa 450 30 haetaan suljetun silmukan viivettä ja vahvistusta minimoimalla kohdesignaalin ja syntetisoidun puhesignaalin välinen keskimääräinen summattu neliö virhe. Suljetun -9- silmukan viivettä etsitään avoimen silmukan viivearvon ympäriltä. Esimerkiksi avoimen silmukan viivearvo on arvio, jota ei haeta AbS:llä ja jonka ympäriltä suljetun silmukan viivettä etsitään. Avoimen silmukan viiveelle käytetään tyypillisesti kokonaislukutarkkuutta, kun taas murtolukutarkkuutta voidaan käyttää suljetun silmukan 5 viiveen haussa. Tarkempi selitys löytyy esimerkiksi aiemmin mainitussa IS-641-selvityksessä.

Lohkossa 460 kohdesignaali x2(k) herätehaulle lasketaan vähentämällä LTP-suodattimen osuus suljetun silmukan viivehaun kohdesignaalista. Herätesignaalia ja sen vahvistusta 10 haetaan tämän jälkeen minimoimalla kohdesignaalin ja syntetisoidun puhesignaalin välinen summattu neliövirhe lohkossa 470. Tässä vaiheessa voidaan tyypillisesti ottaa käyttöön joitakin heuristisia sääntöjä, joilla voidaan välttää kaikkien mahdollisten ehdotettujen herätesignaalien täydellinen haku koodikirjasta hakuajan lyhentämiseksi. Lohkossa 480 kooderin suodatintilat päivitetään, jotta ne vastaisivat dekooderin 15 suodatintiloja. On syytä huomata, että koodausproseduuri sisältää myös siirrettävien parametrien kvantisoinnin, joiden tarkempi esittely on jätetty pois selkeyden vuoksi.

Aiemmissa toteutuksissa optimaalista herätejonoa sekä LTP-vahvistusta ja herätejonoa haetaan minimoimalla kohdesignaalin ja syntetisoidun signaalin välinen summattu 20 neliövirhe, J(gP)>ucp)) = ||x2p) - i2(i)||2 = ||x2P) - gp)H(i)ucp)||\ (3) jossa x2(.v) on kohdevektori, joka koostuu x2(k) -näytteistä hakuhorisontissa, x2(,v) on 25 vastaava syntetisoitu signaali ja uc(.v) on herätevektori kuvioissa 2 ja 3 esitetyllä tavalla. H(s) on LPC-suodattimen impulssivastematriisi ja g(s) on vahvistus. Optimaalinen vahvistus voidaan löytää määrittämällä kustannusfunktion osittaisderivaatta vahvistuksen suhteen nollaksi, rt- *2P)THp)ucp) (λ\ §(S) ucCv)TH(.v)TH(.v)uc(.v) ' ( } - 10- Tällöin sijoittamalla (4) (3):een saadaan tulokseksi _ MT / Λ (x2(^)TH(5)Uc(5))2 J(uc(s)) - x2(s) x2(s) Uc(5)th(5)th(5)Uc(5)· (5) 5

Optimaalista herätettä haetaan yleensä maksimoimalla yhtälön (5) jälkimmäinen termi, x2(.sjTH(.sj ja H(.sjTH(.v) voidaan laskea ennen herätehakua.

Esillä olevassa keksinnössä kuvataan menetelmää, jossa heräte mallinnetaan ei-10 stationaaristen puhesegmenttien aikana synteesi-analyysi-puhekooderilla. Menetelmä hyötyy kuuloaistiominaisuuksista; ihmiskorvan kyvyttömyyttä erottaa tarkasti puhesignaaleiden sisältämät valhetiedot hyödynnetään lieventämällä koodatun herätesignaalin aaltomuodon sovituksen rajoitteita. Menetelmää käytetään edullisimmin ei-stationaariseen tai soinnittomaan puheeseen. Lisäksi yhdistämällä mukautuva 15 vaihedispersio koodattuun herätteeseen voidaan tehokkaasti säilyttää signaalin tärkeimmät ominaisuudet.

Keksinnön eräässä suoritusmuodossa aaltomuodon sovituksen rajoitetta lievennetään kiinteän koodikirjan herätettä luotaessa. Tässä suoritusmuodossa kahden 20 pulssinpaikkakoodikiijan, koodikirjojen 1 ja 2 avulla johdetaan siirretty heräte sekä sen vahvistus. Ensimmäistä pulssinpaikkakoodikiqaa käytetään vain kooderissa, ja se sisältää tiheän paikkaruudukon (tai komentosanan). Toinen koodikhja on pienempi ja se sisältää muutetut pulssien paikat, ja sitä käytetään täten sekä kooderissa että dekooderissa. Siirretty herätesignaali ja sen vastaava vahvistusarvo voidaan johtaa seuraavasti: ensin 25 haetaan optimaalista herätesignaalia ja sen vahvistusta koodikhjan 1 avulla. Koska koodikiqan ruudukko on suhteellisen tiheä, ideaalisen herätesignaalin muoto ja energia säilyvät tehokkaasti. Toiseksi löydetyt pulssin paikat kvantisoidaan koodikhjan 2 mahdollisiksi pulssin paikoiksi esimerkiksi etsimällä lähin pulssin paikka koodikhjasta 2 i. nnelle pulssille sen saman pulssin paikaksi, joka löytyi koodikhjaa 1 käyttämällä. Täten 30 z':nnen pulssin kvantisoitu pulssin paikka 0(¾) johdetaan esimerkiksi minimoimalla - 11 - d (xy, Q{x x)) = min I x -y |, (6) y«,2eCi,2 jossa xL] on koodikirjan 1 zinnen pulssin paikka ja CL2 sisältää koodikaan 2 /'innon 5 pulssin mahdolliset pulssin paikat. Koodikirjaa 1 käyttämällä saatu vahvistusarvo siirretään dekooderiin. On syytä huomata, että tässä hakemuksessa viitataan termeihin pulssit ja pulssin paikat, mutta muunkin tyyppisiä esityksiä (esimerkiksi näytteitä, aaltomuotoja ja aallokkeita) voidaan käyttää esimerkiksi koodikirjan paikkojen merkitsemiseen tai pulssien esittämiseen koodatussa signaalissa. On syytä huomata, että 10 ylempänä viitataan pulsseihin ja pulssin paikkoihin, mutta muunkin tyyppisiä esityksiä (esimerkiksi aaltomuotoja ja aallokkeita) voidaan käyttää esimerkiksi koodikirjan paikkojen merkitsemiseen tai pulssien esittämiseen koodatussa signaalissa.

Kuviossa 5 on esitetty kuvion 3 ideaalinen heräte, joka on mallinnettu keksinnön 15 suoritusmuodolla käyttämällä taulukoissa 1 ja 2 (tässä järjestyksessä) olevia koodikirjoja 1 ja 2. Kuten kuviosta näkyy, ideaalisen herätteen energia ja muoto voidaan säilyttää tehokkaammin käyttämällä koodikirjoja 1 ja 2 yhdessä kuin käyttämällä vain yhtä koodikirjaa, kuten aiemmissa toteutuksissa. Molemmissa tapauksissa bittinopeus pysyi samana.

20

Toinen merkittävä aspekti on koodatun herätesignaalin energiadispersio. Ideaalisen herätteen energiadispersion jäljittelemiseksi koodattuun herätesignaaliin yhdistetään mukautuva suodatusmekanismi. Keksinnön yhteydessä voidaan käytää useita suodatusmenetelmiä. Tässä suoritusmuodossa käytetään suodatusmenetelmää, jossa 25 toivottu dispersio saadaan aikaan satunnaistamalla koodatun herätesignaalin asiaan kuuluvat vaihekomponentit. Yksityiskohtaisempi esitys suodatusmekanismista on teoksissa Removal of sparse-excitation artifacts in CELP (kirjoittaneet R. Hagen, E. Ekudden ja B. Johansson) sekä W.B. Kleijn: Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Seattle, May 1998.

30 - 12-

Suodatusmenetelmässä määritetään kynnystaajuus, jonka yläpuolella vaihekomponentit satunnaistetaan ja jonka alapuolella komponentit jäävät ennalleen. Vaihedispersion, joka toteutetaan koodatulle signaalille pelkästään dekooderissa, on havaittu tuottavan korkeaa laatua. Tässä suoritusmuodossa otetaan käyttöön kynnystaajuudcn mukautusmenetelmä, 5 jolla valvotaan dispersion määrää. Kynnystaajuus johdetaan ideaalisen herätesignaalin huippukohta-arvosta, jossa huippukohta-arvo määrittää kehyksen sisäisen energiahajonnan. Huippukohta-arvo P määritellään yleensä ideaaliselle herätteelle r(n), ja se saadaan seuraavasti: J\lNYN~lr2(n + \) 10 p=s - i;::11-, (7) ι^Ε„0ιφ+ι)ι jossa N on kehyksen pituus, josta huippukohta-arvo lasketaan, ja r(n) on ideaalinen herätesignaali.

15 Kuviossa 6 on esitetty esimerkki huippukohdan arvokäyrästä esimerkin mukaiselle herätesignaalille. Yläkaaviossa A on esitetty ideaalinen herätesignaali, kun taas alakaaviossa B on esitetty vastaava huippukohtakäyrä, jossa kehyskoko on 80 näytettä, laskettuna yhtälöllä (7). Kuten käy ilmi, tuloksena oleva arvo antaa hyvän osoituksen signaalin huippuominaisuuksista ja korreloi hyvin ideaalisen herätteen yleisen 20 huipputoiminnan kanssa, sillä huomattavan huipputoiminnan tiedetään olevan klusiilipuheen merkki.

Tässä suoritusmuodossa koodattuun herätteeseen yhdistetään mukautuva vaihedispersio, jotta ideaalisen herätteen energiadispersio voitaisiin säilyttää paremmin. Dekoodatun 25 puhesignaalin energian yleinen muoto on tärkeä, jotta syntetisoitu puhe kuulostaisi luonnolliselta. Ihmisten aistiominaisuuksien perusteella tiedetään, että esimerkiksi klusiilien aikana signaalin huippupalkan tarkka sijainti tai spektrin yleisen muodon tarkka esitys ei ole olennaisen tärkeää korkealaatuisen puheenkoodauksen kannalta.

- 13 -

Mukautuva kynnystaajuus, jonka yläpuolella valhetiedot satunnaistetaan, määritetään keksinnössä huippukohta-arvon funktioksi. On syytä huomata, että tämä suhde voidaan määrittää usealla eri tavalla. Yksi, mutta ei missään nimessä ainoa esimerkki, on paloittain lineaarinen funktio, joka voidaan määrittää seuraavasti: 5 απ, p<pi«» dispthr = · απ + (P - PhJ{% -απ) l(Phigh - PJ), Phw <P< Phigh, (8)

π, p>PhigH

jossa a € [O, l] määrittää kynnystaajuuden alarajan, jonka alla dispersio pysyy vakiona, ja Plow sekä Phigh määrittävät huippukohta-arvon rajat, joiden ulkopuolella kynnystaajuus 10 pysyy vakiona.

Kuviossa 7 on esitetty kaavio vaihedispersiosuodatuksen vaikutuksesta koodattuun herätesignaaliin. Kuvion 6 mukainen ideaalinen herätesignaali mallinnetaan IS-641-kooderilla lukuun ottamatta klusiileja /p/, Iti ja Iki. Mallinnuksessa käytetään kuvattua 15 menetelmää, johon sisältyy kaksi kiinteää koodikirjaa, ja yhtä vahvistusarvoa 40 näytettä kohti. Tässä kohtaa on syytä huomata, että LTP-tietojen osuus jätettiin huomiotta klusiilien aikana. Yläkaaviossa A esitellään koodattu heräte, joka on saatu aikaan ilman vaihedispersiota. Alakaaviossa B on esitetty vaihedispersioitu heräte, jonka parametriarvot ovat Plov =1.5, Phigh = 3 ja a = 0.5. Jotta kuvatun kaltaista 20 vaihedispersiomenetelmää voitaisiin käyttää, tiedot kynnystaajuudesta on lähetettävä koodauspäästä dekooderille. Dekooderissa käytetään joko dispersoimatonta tai dispersoitua herätesignaalia vaadittavien muistien päivittämiseen. Tämän keksinnöllisen tekniikan käyttäminen mukautuvan dispersiosuodatuksen hyödyntämisessä tuottaa tulokseksi luonnolliselta kuulostavan syntetisoidun puheen, kuten voidaan nähdä 25 kaaviosta B kuviossa 7.

Kuviossa 8 on esitetty esimerkkisovellus esillä olevan keksinnön mukaisesta puhekooderista 810, joka toimii laitteessa 800, esimerkiksi kannettavassa päätelaitteessa.

Lisäksi laite 800 voi olla myös verkkoradiotukiasema, äänentallennus- tai ääniviestilaite, jossa keksinnön mukainen puhekooderi 810 on toteutettu.

- 14-

Kuviossa 9 on esitetty toiminnallinen peruslohkokaavio esimerkkinä kannettavasta 5 päätelaitteesta, johon on yhdistetty keksitty puhekooderi. Siirtoprosessissa käyttäjän puhesignaali poimitaan mikrofonilla 900 ja siitä otetaan näyte A/D-muuntimessa 905. Digitoitu puhesignaali koodataan tämän jälkeen puhekooderissa 910 keksinnön suoritusmuodon mukaisesti. Kantataajuussignaalin käsittely tehdään koodatulle signaalille, jotta voidaan tuottaa oikea kanavakoodaus lohkossa 915. Kanavakoodattu 10 signaali muunnetaan tämän jälkeen radiotaajuussignaaliksi ja siirretään lähettäjältä 920 duplex-suodattimen 925 läpi. Duplex-suodatin 925 sallii antennin 930 käytön sekä radiosignaalien lähettämisessä että vastaanottamisessa. Vastaanotetut radiosignaalit käsitellään vastaanotinhaarassa 935, jossa ne dekoodataan puhedekooderilla 940 keksinnön suoritusmuodon mukaisesti. Dekoodattu puhesignaali lähetetään D/A-15 muuntimen 945 läpi muunnettavaksi analogiseksi signaaliksi, ja sen jälkeen se lähetetään kaiuttimeen 950 syntetisoidun puheen tuottamista varten.

Esillä oleva keksintö käsittelee tekniikkaa, jolla voidaan parantaa koodatun puheen laatua AbS-koodereissa bittinopeutta lisäämättä. Tämä saadaan aikaan lieventämällä 20 aaltomuodon sovituksen rajoitteita ei-stationaariselle (klusiilit) tai soinnittomille puhesignaaleille paikoissa, joissa tarkat äänenkorkeustiedot ovat tyypillisesti kuulijan aistien kannalta merkityksettömiä. On syytä huomata, että keksintö ei rajoitu klusiilisen puheen havaitsemiseen tarkoitettuun kuvattuun huippukohtamenetelmään ja että mitä tahansa muuta sopivaa menetelmää voidaan käyttää menestyksekkäästi. On mahdollista 25 käyttää esimerkiksi tekniikoita, jotka mittaavat paikallisen signaalin laatua, esimerkiksi muutosvauhtia tai energiaa. Klusiilien havaitsemiseen voidaan käyttää myös tekniikoita, jotka käyttävät keskihajontaa tai -korrelaatiota.

Vaikka esillä olevaa keksintöä on kuvattu joiltakin osin viitaten sen tiettyyn 30 suoritusmuotoon, alan asiantuntijat ymmärtävät siihen liittyvät variaatiot ja muunnelmat. Erityisesti keksinnön konsepti ei rajoitu puhesignaaleihin, vaan sitä voidaan soveltaa - 15 - esimerkiksi musiikkiin ja muuntyyppisiin ääniin. Siksi seuraavien patenttivaatimuksien tulkintaa ei tule rajoittaa, vaan niihin tulee lukea mukaan variaatiot ja muunnelmat, jotka on johdettu esillä olevasta keksinnön aiheesta.

Claims

1. Menetelmä puhesignaalin koodaamiseksi, tunnettu siitä, että menetelmä käsittää: muodostetaan kooderissa pulssijono ensimmäistä h e räteko o dikirj aa 5 käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikirjan paikkaruudukon mukaisesti; muutetaan ensimmäisen paikkasarjan pulssipaikkoja kooderissa niin, että saadaan aikaan toinen paikkasarja toisen herätekoodikirjan paikkaruudukon 10 mukaisesti, ja menetelmässä ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikirjan paikkaruudukon; ja Tuotetaan koodattu herätesignaali. 15

2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmä suoritetaan pienen bittinopeuden synteesi-analyysi (AbS) -puhekooderilla.

3. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin.

4. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin, jotka 25 määritetään havaitsemalla peakiness-taso, joka tyypillisesti osoittaa ei- stationaarisen puheen.

5. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, tunnettu siitä, että ensimmäisen herätekoodikirjan populaatiotiheys on 30 keskimäärin alueella 5-10 kertaa toisen herätekoodikirjan populaatiotiheys. - 17-

6. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, tunnettu siitä, että peakiness-arvon avulla lasketaan dispersioarvo seuraavalle vaiheiden satunnaistamiselle.

7. Menetelmä puhesignaalin lähettämiseksi lähettimestä vastaanottimelle, tunnettu siitä, että menetelmä käsittää seuraavat vaiheet: muodostetaan kooderissa pulssijono ensimmäistä herätekoodikirjaa käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikhjan paikkaruudukon 10 mukaisesti; muutetaan ensimmäisen paikkasarjan pulssipaikkoja kooderissa niin, että saadaan aikaan toinen paikkasarja toisen herätekoodikhjan paikkaruudukon mukaisesti, ja menetelmässä ensimmäisen herätekoodikhjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikhjan 15 paikkaruudukon; Tuotetaan koodattu herätesignaali lähettimen kooderissa; Lähetetään mainittu koodattu herätesignaali vastaanottimelle; ja Dekoodataan mainittu koodattu herätesignaali dekooderilla syntetisoidun puheen tuottamiseksi vastaanottimessa. 20

8. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että menetelmä suoritetaan pienen bittinopeuden synteesi-analyysi (AbS) -puhekooderilla.

9. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että 25 menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin.

10. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin, jotka määritetään havaitsemalla peakiness-taso, joka tyypillisesti osoittaa ei- 30 stationaarisen puheen. - 18 -

11. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että peakiness-tai dispersiotiedot siirretään kooderista dekooderiin käytettäviksi dekoodatun signaalin vaiheiden satunnaistamiseen.

12. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että ensimmäisen herätekoodikirjan populaatiotiheys on alueella 5-10 kertaa toisen herätekoodikiqan populaatiotiheys.

13. Patenttivaatimuksen 10 tai 11 mukainen menetelmä, tunnettu siitä, että 10 peakiness-arvon avulla lasketaan dispersioarvo dekoodatun signaalin seuraavalle vaiheiden satunnaistamiselle.

14. Kooderi puhesignaalin koodaamiseen, t u n n e t t u siitä, että kooderi käsittää: välineet pulssijonon muodostamiseksi ensimmäistä herätekoodikhjaa 15 käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasaqassa ensimmäisen herätekoodikiqan paikkaruudukon mukaisesti; välineet ensimmäisen paikkasaqan pulssipaikkojen muuttamiseksi niin, että saadaan aikaan toinen paikkasaqa toisen herätekoodikirjan paikkaruudukon 20 mukaisesti, ja jossa ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikiqan paikkaruudukon; ja välineet puheherätesignaalin tuottamiseksi lähettimen kooderissa.

15. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi sisältyy pienten bittinopeuksien synteesi-analyysi (AbS) -puhekooderiin.

16. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi 30 sisältää välineet puhesignaalien ei-stationaaristen segmenttien havaitsemiseksi. - 19-

17. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi sisältää välineet puhesignaalin segmentin peakiness-arvon laskemiseksi.

18. Patenttivaatimuksen 17 mukainen kooderi, tunnettu siitä, että kooderi 5 sisältää välineet dispersioarvon laskemiseksi peakiness-arvosta seuraavaa vaiheiden satunnaistamista varten.

19. Laite, joka käsittää puhekooderin puhesignaalien koodausta ja dekoodausta varten, tunnettu siitä, että laite käsittää: 10 välineet pulssijonon muodostamiseksi ensimmäistä hcrätckoodikirjaa käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikirjan paikkaruudukon mukaisesti välineet ensimmäisen paikkasaijan pulssipaikkojen muuttamiseksi niin, että 15 saadaan aikaan toinen paikkasaija toisen herätekoodikirjan paikkaruudukon mukaisesti, ja jossa ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikirjan paikkaruudukon; ja välineet puheherätesignaalin tuottamiseksi lähettimen kooderissa. 20

20. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite sisältää välineet puhesignaalien ei-stationaaristen segmenttien havaitsemiseksi.

21. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite on kannettava päätelaite.

22. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite on radiotukiasema. 30