FI119955B - Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa - Google Patents

Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa Download PDF

Info

Publication number
FI119955B
FI119955B FI20011329A FI20011329A FI119955B FI 119955 B FI119955 B FI 119955B FI 20011329 A FI20011329 A FI 20011329A FI 20011329 A FI20011329 A FI 20011329A FI 119955 B FI119955 B FI 119955B
Authority
FI
Finland
Prior art keywords
speech
encoder
excitation
signal
codebook
Prior art date
Application number
FI20011329A
Other languages
English (en)
Swedish (sv)
Other versions
FI20011329A0 (fi
FI20011329A (fi
Inventor
Ari Heikkinen
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Priority to FI20011329A priority Critical patent/FI119955B/fi
Publication of FI20011329A0 publication Critical patent/FI20011329A0/fi
Priority to CN02812450.2A priority patent/CN100489966C/zh
Priority to PCT/FI2002/000482 priority patent/WO2003001172A1/en
Priority to EP02727632A priority patent/EP1397655A1/en
Priority to US10/167,287 priority patent/US7089180B2/en
Publication of FI20011329A publication Critical patent/FI20011329A/fi
Application granted granted Critical
Publication of FI119955B publication Critical patent/FI119955B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Description

-1 -
Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi- puhekoodereissa
Keksinnön alue 5
Esillä oleva keksintö liittyy yleisesti puheenkoodaukseen ja äänisignaaleihin sekä erityisemmin parannettuun herätteen mallintamisproseduuriin synteesi-analyysi-koodereissa.
10 Keksinnön tausta
Puheen ja äänen koodausalgoritmeilla on paljon erilaisia sovelluksia langattomassa viestinnässä, multimediassa ja äänentallennusjärjestelmissä. Koodausalgoritmien kehittymistä edistää tarve säästää siirto- ja tallennuskapasiteettia sekä pitää samalla 15 syntetisoidun signaalin laatu korkeana. Nämä vaatimukset ovat usein varsin ristiriitaisia, ja yleensä joudutaankin tekemään kompromisseja kapasiteetin ja laadun välillä. Puheenkoodaus on erityisen tärkeää matkapuhelinjärjestelmissä, koska täydellisen puheen spektrin siirtäminen vaatii huomattavasti kaistanleveyttä ympäristössä, jossa spektriresurssit ovat suhteellisen rajoittuneet. Näin ollen hyödynnetään signaalin 20 kompressointitekniikoita käyttämällä puheen koodausta ja dekoodausta. Tämä on välttämätöntä, jotta puhetta voitaisiin siirtää tehokkaasti pienillä bittinopeuksilla.
Kuviossa 1 on esitetty esimerkkiproseduuri digitaalisten äänisignaalien siirtämisestä ja/tai tallentamisesta toistettavaksi tämän jälkeen uudelleen lähtöpäässä. Puhesignaali y(k) 25 syötetään kooderiin 100, joka koodaa signaalin alkuperäisen signaalin koodatuksi digitaaliseksi esitykseksi. Tuloksena oleva bittivirta lähetetään viestintäkanavaan (esimerkiksi radiokanavalle) tai tallennusvälineeseen 110, esimerkiksi puolijohdemuistiin tai magneettiseen tai optiseen tallennusvälineeseen. Kanavasta/tallennusvälineestä 110 bittivirta syötetään dekooderiin 120, jossa se dekoodataan ja siitä tuotetaan alkuperäinen 30 signaali y(k) lähtösignaalin y(k) muodossa.
-2-
Puheenkoodausalgoritmit ja -järjestelmät voidaan luokitella eri tavoin perusteista riippuen. Ne voidaan luokitella esimerkiksi aaltomuotokoodereihin, parametrisiin koodereihin ja hybridikoodereihin. Aaltomuotokooderit pyrkivät nimensä mukaisesti 5 säilyttämään koodattavan aaltomuodon mahdollisimman tarkasti, mutta ne eivät kiinnitä juurikaan huomiota puhesignaalin ominaisuuksiin. Aaltomuotokoodereissa on myös se etu, että ne ovat suhteellisen yksinkertaisia rakenteeltaan ja toimivat tyypillisesti hyvin meluisassa ympäristössä. Ne vaativat yleensä kuitenkin suhteellisen suuria bittinopeuksia laadukkaan puheen tuottamiseen. Hybridikooderit käyttävät aaltomuototekniikoiden ja 10 parametristen tekniikoiden yhdistelmää, eli ne käyttävät tyypillisesti parametrisia menetelmiä esimerkiksi ääniväylän mallintamiseen LPC-suodattimella. Suodattimen tulosignaali koodataan tämän jälkeen menetelmällä, joka voitaisiin luokitella aaltomuodon koodausmenetelmäksi. Hybridipuhekoodereita käytetään nykyisin laajalti tuottamaan lähes lankapuhelimen tasoista puhelaatua bittinopeuksilla, jotka vaihtelevat 15 välillä 8-12 kbps.
Monissa nykyisissä hybridikoodereissa siirretyt parametrit määritetään synteesi-analyysi (AbS) -menetelmällä, jossa valittu vääristymisperuste minimoidaan alkuperäisen puhesignaalin ja rekonstruoidun puheen välillä kutakin mahdollista parametriarvoa 20 vastaavasti. Näitä koodereita kutsutaankin usein AbS-puhekoodereiksi. Esimerkkinä tyypillisessä AbS-kooderissa ehdotettu heräte otetaan koodikiijasta ja suodatetaan LPC-suodattimen läpi, ja suodatetun signaalin ja tulosignaalin välinen virhe lasketaan niin, että pienimmän virheen tarjoava vaihtoehto tulee valituksi.
25 Tyypillisessä AbS-puhekooderissa puheen tulosignaali käsitellään kehyksinä. Kehyksen pituus on yleensä 10-30 ms, ja saatavilla on myös seuraavan kehyksen 5-15 ms:n tähystyssegmentti. Jokaisessa kehyksessä kooderi määrittää puhesignaalin parametrisen esityksen. Parametrit kvantisoidaan ja siirretään viestintäkanavan läpi tai tallennetaan tallennusvälineeseen digitaalisessa muodossa. Vastaanottavassa päässä dekooderi 30 muodostaa alkuperäistä signaalia edustavan syntetisoidun puhesignaalin vastaanotettujen parametrien perusteella.
-3 -
Yksi tärkeä synteesi-analyysi-kooderin luokka on CELP (Code Excited Linear Predictive) -puhekooderi, jota käytetään laajalti monissa langattomissa digitaalisissa tiedonsiirtojärjcstelmissä. CELP on tehokas suljetun silmukan synteesi-analyysi-5 koodausmenetelmä, joka on osoittanut toimivansa hyvin pienten bittinopeusten järjestelmissä (4-16 kbps). CELP-koodereissa puhe segmentoidaan kehyksiksi (esim. 10-30 ms) niin, että jokaiselle kehykselle määritetään ja kvantisoidaan optimaalinen lineaarisen ennustuksen ja äänenkorkeuden suodatusparametrien sarja. Kukin puhekehys jaetaan edelleen useisiin alikehyksiin (esimerkiksi 5 ms), ja jokaista alikehystä kohti 10 haetaan herätekoodikiijasta tulovektori kvantisoituun enn ustinjärj cstelmään, joka tuottaa alkuperäisen puhesignaalin parhaiten.
Useimpien AbS-koodereiden perusrakenne on varsin samanlainen. Niissä on tyypillisesti tietyntyyppinen lineaarinen ennustava koodaustekniikka (LPC), esimerkiksi sarjassa 15 olevat aikavariantti äänenkorkeuden ennustin ja LPC-suodatin. Kaikkinapaista (All-Pole) LPC-suodatinta: —-—=-r-, (1) A(q,s) l + a^sjg 1 +a2(s)q 2 +... + an (s)q n° 20 jossa q~l on yksikköviiveoperaattori ja s alikehyksen indeksi, käytetään mallintamaan puhesignaalin lyhytaikaista spektrin yleistä muotoa. LPC-suodattimen asteluku na on tyypillisesti 8-12. Äänenkorkeuden ennustin, jonka muoto on B(q,s) 1 -b(s)q~x(s) ^ ^ 25 käyttää puheen äänenkorkeuden jaksollisuutta spektrin hienorakenteen mallintamiseen. Tyypillisesti vahvistus b(s) rajoittuu intervallin [0, 1.2] ja äänenkorkeusviive τ(.ν) -4- intervallin [20, 140] näytteisiin (jos näytteenottotaajuus on 8 000 Hz). Äänenkorkeuden ennustimesta käytetään myös nimitystä pitkän aikavälin suodatin eli LTP-suodatin.
Kuviossa 2 on esitetty yksinkertaistettuna funktionaalisena lohkokaaviona esimerkki 5 AbS-puhekooderista. herätesignaali uc(k) syntyy herätegeneraattorissa 200. Herätegeneraattorista 200 käytetään usein nimitystä herätekoodikiija, jossa signaali kerrotaan vahvistuksella g(s) 205 ja muodostaa tulosignaalin suodatinsarjaan 225. Takaisinkytkentäsihnukka, joka koostuu viiveestä q~'(s) 215 ja vahvistuksesta b(s) 210, edustaa LTP-suodatinta. LTP-suodatin mallintaa signaalin jaksollisuutta, joka on 10 erityisen tärkeä soinnillisessa puheessa, jossa aiempaa jaksollista puhetta käytetään nykyisen alikehyksen puheen likimääränä ja virhe koodataan kiinteällä herätteellä, esimerkiksi algebrallisella koodikirjalla. Suodatinsaijan 225 ulostulo on syntetisoitu puhesignaali y(k). Kooderissa virhesignaali e(k) (keskimääräinen neliöity painotettu virhe) lasketaan vähentämällä syntetisoitu puhesignaali y(k) alkuperäisestä 15 puhesignaalista y(k). Virheen minimointiproseduuria 235 käytetään, kun valitaan herätegeneraattorin 200 tuottama paras herätesignaali. Tyypillisesti virhesignaaliin sovelletaan havainnointipainotussuodatinta ennen virheen minimointiproseduuria, jotta virhesignaalin spektri voitaisiin muotoilla kuulumattomammaksi.
20 Vaikka AbS-puhekooderit ovat yleensä hyvin suorituskykyisiä pienillä bittinopeuksilla, ne ovat laskennallisesti suhteellisen vaativia. Niiden toinen ominaisuus on se, että pienillä bittinopeuksilla (esim. alle 4 kbps) sovittaminen alkuperäisen puheen aaltomuotoon rajoittaa pahasti koodauksen tehon parantamista. Tämä pätee yleensä puheen koodaukseen: niin soinnillisen, soinnittoman kuin klusiilisenkin puheen. Vaikka 25 soinnillisen puheen mallintamisen parantamiseksi onkin esitetty ratkaisuja, merkittäviä parannuksia ei-stationaarisen puheen, esimerkiksi klusiilien, mallintamiseen ei ole vielä esitetty. Kuten alan asiantuntijat tietävät, klusiileilla ja soinnittomalla puheella on taipumusta katkonaisuuteen (esimerkkinä umpiäänteet, kuten /p/, Iki ja lii). Nämä puheaaltomuodot ovat erityisen hankalia mallintaa tarkasti tekniikan tason mukaisissa 30 alhaisen bittinopeuden AbS-koodereissa, koska alkuperäisten ja koodattujen -5 - herätesignaalien välillä on usein selkeä yhteensopimattomuus johtuen siitä, että bittejä ei ole riittävästi alkuperäisen herätteen tarkkaan mallintamiseen. Yleisen aaltomuotoprofiilin erot aiheuttavat sen, että koodatun herätteen energia on paljon pienempi kuin ideaalisen herätteen parametrin arviointimenetelmästä johtuen. Tämän seurauksena syntetisoitu 5 puhe voi usein kuulostaa luonnottomalta hyvin matalalla energiatasolla.
Kuviossa 3 on esitetty tuloksena oleva CELP-kooderin synteettinen heräte käytettäessä koodikiijaa, jolla on suhteellisen korkea pulssin populaatiotiheys (koodikirja 1) eli tiheä pulssin paikkaristikko. Esillä on myös tuloksena oleva synteettinen heräte käytettäessä 10 koodikirjaa, jolla on suhteellisesti pienempi pulssin populaatiotiheys (koodikirja 2). Yläkaaviossa A on esitetty äänen /p/ ideaalinen heräte. Molemmissa koodikirjoissa käytetään kahta positiivista tai negatiivista pulssia 40 näytteen alikehyksen päällä. Pulssien esimerkkisijainnit ja -muutokset yksittäisissä koodikirjoissa on esitetty erikseen taulukoissa 1 ja 2, tässä järjestyksessä. Kuten alakaaviosta C voidaan nähdä, 15 herätesignaalilla, joka on muodostettu käyttämällä taulukon 2 koodikirjaa, on paljon matalampi energiataso kuin ideaalisella herätteellä (yläkaavio), koska pulssien mahdolliset sijainnit eivät vastaa hyvin pulssin sijainteja ideaalisessa herätteessä. Koodikirjaa 1 käytettäessä energiataso on sitä vastoin huomattavasti korkeampi, koska pulssien sijainnit vastaavat tarkemmin ideaalista herätettä, kuten keskikaaviossa B on 20 esitetty. Molemmissa koodikirjoissa käytetään vain yhtä pulssivahvistusta alikehystä kohti, ja mukautuvia koodikirjoja ei käytetä.
Pulssi Paikat 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24,26, 28, 30, 32, 34, 36, 38 0 1 1, 3, 5, 7,9, 11, 13, 15, 17, 19,21,23,25,27,29,31,33,35,37,39 TAULUKKO 1 -6-
Pulssi Paikat O, 4, 8, 12, 16, 20, 24, 28, 32, 36 0 2, 6, 10, 14, 18, 22, 26, 30, 34, 38 TAULUKKO 2 5 Tuloksena oleva energiaero syntetisoitujen herätteiden välillä on selvästi näkyvissä, kun käytetään koodikirjaa, jossa on vähemmän pulssin paikkoja, jolloin matalamman energiatason heräte tuottaa tulokseksi epätyydyttävän ja tuskin kuuluvan äänen. Aiemmin esitetyn valossa tarvitaan parannettu menetelmä, jonka avulla AbS-puhekooderit pystyvät tuottamaan tarkemmin laadukasta puhetta puhesignaaleissa, jotka sisältävät ei-10 stationaarista puhetta.
Yhteenveto keksinnöstä
Esillä oleva keksintö kuvaa menetelmän puhesignaalin koodaamiseksi ja lähettämiseksi 15 sekä vastaavan kooderin sekä laitteen. Menetelmille, kooderille ja laitteelle tunnusomaista on liitettyjen patenttivaatimusten itsenäisten patenttivaatimusten tunnusmerkkiosassa kuvatut seikat. Esillä olevan keksinnön lisäsovelluksia kuvataan liitetyissä epäitsenäisissä vaatimuksissa.
20 Kuvien lyhyt esittely
Keksintö sekä siihen liittyvät muut tavoitteet ja edut on ehkä helpointa ymmärtää viittaamalla seuraavaan kuvaukseen, johon liittyvät seuraavat kuvat: -7-
Kuviossa 1 on esitetty esimerkkinä digitaalisten äänisignaalien siirtäminen ja/tai tallentaminen.
Kuviossa 2 on esitetty yksinkertaistettuna funktionaalisena lohkokaaviona esimerkki 5 synteesi-analyysi (AbS) -puhekooderista.
Kuviossa 3 on esitetty herätesignaalien energiasisällön ero, joka syntyy siitä, että koodikirjoissa on eri määrä pulssin paikkoja.
10 Kuviossa 4 on esitetty lohkokaaviona esimerkki AbS-koodausproseduurista.
Kuviossa 5 on esitetty ideaalinen herätesignaali esillä olevan keksinnön suoritusmuodon mallintamana.
15 Kuviossa 6 on esitetty esimerkki huippukohdan arvokäyrästä esimerkkinä olevalle ideaaliselle herätesignaalille.
Kuviossa 7 on esitetty vaihedispersiosuodatuksen vaikutus koodattuun herätesignaaliin.
20 Kuviossa 8 on esitetty esimerkki laitteesta, jossa käytetään esillä olevan keksinnön mukaista puhekooderia.
Kuviossa 9 on esitetty toiminnallinen peruslohkokaavio esimerkkinä kannettavasta päätelaitteesta, johon sisältyy keksitty puhekooderi.
25
Yksityiskohtainen kuvaus keksinnöstä
Kuten edellä on mainittu, klusiileja tai soinnitonta puhetta sisältävien puhesegmenttien mallintaminen tarkasti aiempien toteutusten mukaisilla AbS-puhekoodereilla on ollut 30 yleensä hankalaa. Korkealaatuisen puheen aikaan saaminen edellyttää hyvää tuntemusta puhesignaaleista ja ihmisaistien ominaisuuksista. Tiedetään esimerkiksi, että tietyntyyppisiä koodausvääristymiä ei havaita, koska signaali peittää ne, ja näin yhdessä signaalin redundanssin kanssa puheen laatua voidaan parantaa pienillä bittinopeuksilla.
-8-
Kuviossa 4 on esitetty lohkokaaviona esimerkki AbS-koodausproseduurista. On syytä 5 huomata, että kaikkia funktionaalisia komponenttilohkoja ei tarvitse välttämättä toteuttaa jokaisessa alikehyksessä. Esimerkiksi IS-641-puhekooderissa kehys jaetaan neljäksi alikehykseksi, joissa esimerkiksi LPC-suodatinparametrit määritetään kerran kehystä kohti, avoimen silmukan viive kaksi kertaa kehystä kohti ja suljetun silmukan viive, LTP-vahvistus, herätesignaali ja sen vahvistus neljä kertaa kehystä kohti. Perusteellisempi 10 esitys IS-641-kooderista on asiakhjassa TIA/EIA IS-641-A, TDMA Cellular/PCS -Radio Interface, Enhanced Full-Rate Voice Codec, Revision A.
Lohkossa 410 LPC-suodattimen kertoimet määritetään puheen tulosignaalin perusteella. Puhesignaali ikkunoidaan tyypillisesti segmenteiksi, ja LPC-suodatinkertoimet 15 määritetään esimerkiksi Levinson-Durbin-algoritmeilla. On syytä huomata, että termi "puhesignaali" voi viitata mihin tahansa signaaliin, joka on johdettu äänisignaalista (esimerkiksi puheesta tai musiikista), ja se voi olla itse puhesignaali tai digitoitu signaali, jäännössignaali jne. Monissa koodereissa LPC-kertoimia ei tyypillisesti määritetä jokaiselle alikehykselle. Tällaisissa tapauksissa kertoimet voidaan interpoloida välissä 20 oleville alikehyksille. Lohkossa 420 tulopuhe suodatetaan A(q, s): 11 a ja tuotetaan LPC-jäännössignaali. LPC-jäännöksen avulla tuotetaan tämän jälkeen uudelleen alkuperäinen puhesignaali, kun se syötetään LPC-suodattimen 1 /A(q, s) läpi. Tämän vuoksi sitä kutsutaan joskus ideaaliseksi herätteeksi.
25 Lohkossa 430 avoimen silmukan viive määritetään etsimällä viivearvo, joka antaa korkeimman autokorrelaatioarvon puheelle tai LPC-jäännössignaalille. Lohkossa 440 kohdesignaali x(k) suljetun silmukan viiveen hakua varten lasketaan vähentämällä LPC-suodattimen nollatulovaste puhesignaalista. Näin voidaan ottaa huomioon LPC-suodattimen alkutilojen vaikutus pehmeästi kehittyvää signaalia varten. Lohkossa 450 30 haetaan suljetun silmukan viivettä ja vahvistusta minimoimalla kohdesignaalin ja syntetisoidun puhesignaalin välinen keskimääräinen summattu neliö virhe. Suljetun -9- silmukan viivettä etsitään avoimen silmukan viivearvon ympäriltä. Esimerkiksi avoimen silmukan viivearvo on arvio, jota ei haeta AbS:llä ja jonka ympäriltä suljetun silmukan viivettä etsitään. Avoimen silmukan viiveelle käytetään tyypillisesti kokonaislukutarkkuutta, kun taas murtolukutarkkuutta voidaan käyttää suljetun silmukan 5 viiveen haussa. Tarkempi selitys löytyy esimerkiksi aiemmin mainitussa IS-641-selvityksessä.
Lohkossa 460 kohdesignaali x2(k) herätehaulle lasketaan vähentämällä LTP-suodattimen osuus suljetun silmukan viivehaun kohdesignaalista. Herätesignaalia ja sen vahvistusta 10 haetaan tämän jälkeen minimoimalla kohdesignaalin ja syntetisoidun puhesignaalin välinen summattu neliövirhe lohkossa 470. Tässä vaiheessa voidaan tyypillisesti ottaa käyttöön joitakin heuristisia sääntöjä, joilla voidaan välttää kaikkien mahdollisten ehdotettujen herätesignaalien täydellinen haku koodikirjasta hakuajan lyhentämiseksi. Lohkossa 480 kooderin suodatintilat päivitetään, jotta ne vastaisivat dekooderin 15 suodatintiloja. On syytä huomata, että koodausproseduuri sisältää myös siirrettävien parametrien kvantisoinnin, joiden tarkempi esittely on jätetty pois selkeyden vuoksi.
Aiemmissa toteutuksissa optimaalista herätejonoa sekä LTP-vahvistusta ja herätejonoa haetaan minimoimalla kohdesignaalin ja syntetisoidun signaalin välinen summattu 20 neliövirhe, J(gP)>ucp)) = ||x2p) - i2(i)||2 = ||x2P) - gp)H(i)ucp)||\ (3) jossa x2(.v) on kohdevektori, joka koostuu x2(k) -näytteistä hakuhorisontissa, x2(,v) on 25 vastaava syntetisoitu signaali ja uc(.v) on herätevektori kuvioissa 2 ja 3 esitetyllä tavalla. H(s) on LPC-suodattimen impulssivastematriisi ja g(s) on vahvistus. Optimaalinen vahvistus voidaan löytää määrittämällä kustannusfunktion osittaisderivaatta vahvistuksen suhteen nollaksi, rt- *2P)THp)ucp) (λ\ §(S) ucCv)TH(.v)TH(.v)uc(.v) ' ( } - 10- Tällöin sijoittamalla (4) (3):een saadaan tulokseksi _ MT / Λ (x2(^)TH(5)Uc(5))2 J(uc(s)) - x2(s) x2(s) Uc(5)th(5)th(5)Uc(5)· (5) 5
Optimaalista herätettä haetaan yleensä maksimoimalla yhtälön (5) jälkimmäinen termi, x2(.sjTH(.sj ja H(.sjTH(.v) voidaan laskea ennen herätehakua.
Esillä olevassa keksinnössä kuvataan menetelmää, jossa heräte mallinnetaan ei-10 stationaaristen puhesegmenttien aikana synteesi-analyysi-puhekooderilla. Menetelmä hyötyy kuuloaistiominaisuuksista; ihmiskorvan kyvyttömyyttä erottaa tarkasti puhesignaaleiden sisältämät valhetiedot hyödynnetään lieventämällä koodatun herätesignaalin aaltomuodon sovituksen rajoitteita. Menetelmää käytetään edullisimmin ei-stationaariseen tai soinnittomaan puheeseen. Lisäksi yhdistämällä mukautuva 15 vaihedispersio koodattuun herätteeseen voidaan tehokkaasti säilyttää signaalin tärkeimmät ominaisuudet.
Keksinnön eräässä suoritusmuodossa aaltomuodon sovituksen rajoitetta lievennetään kiinteän koodikirjan herätettä luotaessa. Tässä suoritusmuodossa kahden 20 pulssinpaikkakoodikiijan, koodikirjojen 1 ja 2 avulla johdetaan siirretty heräte sekä sen vahvistus. Ensimmäistä pulssinpaikkakoodikiqaa käytetään vain kooderissa, ja se sisältää tiheän paikkaruudukon (tai komentosanan). Toinen koodikhja on pienempi ja se sisältää muutetut pulssien paikat, ja sitä käytetään täten sekä kooderissa että dekooderissa. Siirretty herätesignaali ja sen vastaava vahvistusarvo voidaan johtaa seuraavasti: ensin 25 haetaan optimaalista herätesignaalia ja sen vahvistusta koodikhjan 1 avulla. Koska koodikiqan ruudukko on suhteellisen tiheä, ideaalisen herätesignaalin muoto ja energia säilyvät tehokkaasti. Toiseksi löydetyt pulssin paikat kvantisoidaan koodikhjan 2 mahdollisiksi pulssin paikoiksi esimerkiksi etsimällä lähin pulssin paikka koodikhjasta 2 i. nnelle pulssille sen saman pulssin paikaksi, joka löytyi koodikhjaa 1 käyttämällä. Täten 30 z':nnen pulssin kvantisoitu pulssin paikka 0(¾) johdetaan esimerkiksi minimoimalla - 11 - d (xy, Q{x x)) = min I x -y |, (6) y«,2eCi,2 jossa xL] on koodikirjan 1 zinnen pulssin paikka ja CL2 sisältää koodikaan 2 /'innon 5 pulssin mahdolliset pulssin paikat. Koodikirjaa 1 käyttämällä saatu vahvistusarvo siirretään dekooderiin. On syytä huomata, että tässä hakemuksessa viitataan termeihin pulssit ja pulssin paikat, mutta muunkin tyyppisiä esityksiä (esimerkiksi näytteitä, aaltomuotoja ja aallokkeita) voidaan käyttää esimerkiksi koodikirjan paikkojen merkitsemiseen tai pulssien esittämiseen koodatussa signaalissa. On syytä huomata, että 10 ylempänä viitataan pulsseihin ja pulssin paikkoihin, mutta muunkin tyyppisiä esityksiä (esimerkiksi aaltomuotoja ja aallokkeita) voidaan käyttää esimerkiksi koodikirjan paikkojen merkitsemiseen tai pulssien esittämiseen koodatussa signaalissa.
Kuviossa 5 on esitetty kuvion 3 ideaalinen heräte, joka on mallinnettu keksinnön 15 suoritusmuodolla käyttämällä taulukoissa 1 ja 2 (tässä järjestyksessä) olevia koodikirjoja 1 ja 2. Kuten kuviosta näkyy, ideaalisen herätteen energia ja muoto voidaan säilyttää tehokkaammin käyttämällä koodikirjoja 1 ja 2 yhdessä kuin käyttämällä vain yhtä koodikirjaa, kuten aiemmissa toteutuksissa. Molemmissa tapauksissa bittinopeus pysyi samana.
20
Toinen merkittävä aspekti on koodatun herätesignaalin energiadispersio. Ideaalisen herätteen energiadispersion jäljittelemiseksi koodattuun herätesignaaliin yhdistetään mukautuva suodatusmekanismi. Keksinnön yhteydessä voidaan käytää useita suodatusmenetelmiä. Tässä suoritusmuodossa käytetään suodatusmenetelmää, jossa 25 toivottu dispersio saadaan aikaan satunnaistamalla koodatun herätesignaalin asiaan kuuluvat vaihekomponentit. Yksityiskohtaisempi esitys suodatusmekanismista on teoksissa Removal of sparse-excitation artifacts in CELP (kirjoittaneet R. Hagen, E. Ekudden ja B. Johansson) sekä W.B. Kleijn: Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Seattle, May 1998.
30 - 12-
Suodatusmenetelmässä määritetään kynnystaajuus, jonka yläpuolella vaihekomponentit satunnaistetaan ja jonka alapuolella komponentit jäävät ennalleen. Vaihedispersion, joka toteutetaan koodatulle signaalille pelkästään dekooderissa, on havaittu tuottavan korkeaa laatua. Tässä suoritusmuodossa otetaan käyttöön kynnystaajuudcn mukautusmenetelmä, 5 jolla valvotaan dispersion määrää. Kynnystaajuus johdetaan ideaalisen herätesignaalin huippukohta-arvosta, jossa huippukohta-arvo määrittää kehyksen sisäisen energiahajonnan. Huippukohta-arvo P määritellään yleensä ideaaliselle herätteelle r(n), ja se saadaan seuraavasti: J\lNYN~lr2(n + \) 10 p=s - i;::11-, (7) ι^Ε„0ιφ+ι)ι jossa N on kehyksen pituus, josta huippukohta-arvo lasketaan, ja r(n) on ideaalinen herätesignaali.
15 Kuviossa 6 on esitetty esimerkki huippukohdan arvokäyrästä esimerkin mukaiselle herätesignaalille. Yläkaaviossa A on esitetty ideaalinen herätesignaali, kun taas alakaaviossa B on esitetty vastaava huippukohtakäyrä, jossa kehyskoko on 80 näytettä, laskettuna yhtälöllä (7). Kuten käy ilmi, tuloksena oleva arvo antaa hyvän osoituksen signaalin huippuominaisuuksista ja korreloi hyvin ideaalisen herätteen yleisen 20 huipputoiminnan kanssa, sillä huomattavan huipputoiminnan tiedetään olevan klusiilipuheen merkki.
Tässä suoritusmuodossa koodattuun herätteeseen yhdistetään mukautuva vaihedispersio, jotta ideaalisen herätteen energiadispersio voitaisiin säilyttää paremmin. Dekoodatun 25 puhesignaalin energian yleinen muoto on tärkeä, jotta syntetisoitu puhe kuulostaisi luonnolliselta. Ihmisten aistiominaisuuksien perusteella tiedetään, että esimerkiksi klusiilien aikana signaalin huippupalkan tarkka sijainti tai spektrin yleisen muodon tarkka esitys ei ole olennaisen tärkeää korkealaatuisen puheenkoodauksen kannalta.
- 13 -
Mukautuva kynnystaajuus, jonka yläpuolella valhetiedot satunnaistetaan, määritetään keksinnössä huippukohta-arvon funktioksi. On syytä huomata, että tämä suhde voidaan määrittää usealla eri tavalla. Yksi, mutta ei missään nimessä ainoa esimerkki, on paloittain lineaarinen funktio, joka voidaan määrittää seuraavasti: 5 απ, p<pi«» dispthr = · απ + (P - PhJ{% -απ) l(Phigh - PJ), Phw <P< Phigh, (8)
π, p>PhigH
jossa a € [O, l] määrittää kynnystaajuuden alarajan, jonka alla dispersio pysyy vakiona, ja Plow sekä Phigh määrittävät huippukohta-arvon rajat, joiden ulkopuolella kynnystaajuus 10 pysyy vakiona.
Kuviossa 7 on esitetty kaavio vaihedispersiosuodatuksen vaikutuksesta koodattuun herätesignaaliin. Kuvion 6 mukainen ideaalinen herätesignaali mallinnetaan IS-641-kooderilla lukuun ottamatta klusiileja /p/, Iti ja Iki. Mallinnuksessa käytetään kuvattua 15 menetelmää, johon sisältyy kaksi kiinteää koodikirjaa, ja yhtä vahvistusarvoa 40 näytettä kohti. Tässä kohtaa on syytä huomata, että LTP-tietojen osuus jätettiin huomiotta klusiilien aikana. Yläkaaviossa A esitellään koodattu heräte, joka on saatu aikaan ilman vaihedispersiota. Alakaaviossa B on esitetty vaihedispersioitu heräte, jonka parametriarvot ovat Plov =1.5, Phigh = 3 ja a = 0.5. Jotta kuvatun kaltaista 20 vaihedispersiomenetelmää voitaisiin käyttää, tiedot kynnystaajuudesta on lähetettävä koodauspäästä dekooderille. Dekooderissa käytetään joko dispersoimatonta tai dispersoitua herätesignaalia vaadittavien muistien päivittämiseen. Tämän keksinnöllisen tekniikan käyttäminen mukautuvan dispersiosuodatuksen hyödyntämisessä tuottaa tulokseksi luonnolliselta kuulostavan syntetisoidun puheen, kuten voidaan nähdä 25 kaaviosta B kuviossa 7.
Kuviossa 8 on esitetty esimerkkisovellus esillä olevan keksinnön mukaisesta puhekooderista 810, joka toimii laitteessa 800, esimerkiksi kannettavassa päätelaitteessa.
Lisäksi laite 800 voi olla myös verkkoradiotukiasema, äänentallennus- tai ääniviestilaite, jossa keksinnön mukainen puhekooderi 810 on toteutettu.
- 14-
Kuviossa 9 on esitetty toiminnallinen peruslohkokaavio esimerkkinä kannettavasta 5 päätelaitteesta, johon on yhdistetty keksitty puhekooderi. Siirtoprosessissa käyttäjän puhesignaali poimitaan mikrofonilla 900 ja siitä otetaan näyte A/D-muuntimessa 905. Digitoitu puhesignaali koodataan tämän jälkeen puhekooderissa 910 keksinnön suoritusmuodon mukaisesti. Kantataajuussignaalin käsittely tehdään koodatulle signaalille, jotta voidaan tuottaa oikea kanavakoodaus lohkossa 915. Kanavakoodattu 10 signaali muunnetaan tämän jälkeen radiotaajuussignaaliksi ja siirretään lähettäjältä 920 duplex-suodattimen 925 läpi. Duplex-suodatin 925 sallii antennin 930 käytön sekä radiosignaalien lähettämisessä että vastaanottamisessa. Vastaanotetut radiosignaalit käsitellään vastaanotinhaarassa 935, jossa ne dekoodataan puhedekooderilla 940 keksinnön suoritusmuodon mukaisesti. Dekoodattu puhesignaali lähetetään D/A-15 muuntimen 945 läpi muunnettavaksi analogiseksi signaaliksi, ja sen jälkeen se lähetetään kaiuttimeen 950 syntetisoidun puheen tuottamista varten.
Esillä oleva keksintö käsittelee tekniikkaa, jolla voidaan parantaa koodatun puheen laatua AbS-koodereissa bittinopeutta lisäämättä. Tämä saadaan aikaan lieventämällä 20 aaltomuodon sovituksen rajoitteita ei-stationaariselle (klusiilit) tai soinnittomille puhesignaaleille paikoissa, joissa tarkat äänenkorkeustiedot ovat tyypillisesti kuulijan aistien kannalta merkityksettömiä. On syytä huomata, että keksintö ei rajoitu klusiilisen puheen havaitsemiseen tarkoitettuun kuvattuun huippukohtamenetelmään ja että mitä tahansa muuta sopivaa menetelmää voidaan käyttää menestyksekkäästi. On mahdollista 25 käyttää esimerkiksi tekniikoita, jotka mittaavat paikallisen signaalin laatua, esimerkiksi muutosvauhtia tai energiaa. Klusiilien havaitsemiseen voidaan käyttää myös tekniikoita, jotka käyttävät keskihajontaa tai -korrelaatiota.
Vaikka esillä olevaa keksintöä on kuvattu joiltakin osin viitaten sen tiettyyn 30 suoritusmuotoon, alan asiantuntijat ymmärtävät siihen liittyvät variaatiot ja muunnelmat. Erityisesti keksinnön konsepti ei rajoitu puhesignaaleihin, vaan sitä voidaan soveltaa - 15 - esimerkiksi musiikkiin ja muuntyyppisiin ääniin. Siksi seuraavien patenttivaatimuksien tulkintaa ei tule rajoittaa, vaan niihin tulee lukea mukaan variaatiot ja muunnelmat, jotka on johdettu esillä olevasta keksinnön aiheesta.

Claims (23)

1. Menetelmä puhesignaalin koodaamiseksi, tunnettu siitä, että menetelmä käsittää: muodostetaan kooderissa pulssijono ensimmäistä h e räteko o dikirj aa 5 käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikirjan paikkaruudukon mukaisesti; muutetaan ensimmäisen paikkasarjan pulssipaikkoja kooderissa niin, että saadaan aikaan toinen paikkasarja toisen herätekoodikirjan paikkaruudukon 10 mukaisesti, ja menetelmässä ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikirjan paikkaruudukon; ja Tuotetaan koodattu herätesignaali. 15
2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmä suoritetaan pienen bittinopeuden synteesi-analyysi (AbS) -puhekooderilla.
3. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin.
4. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin, jotka 25 määritetään havaitsemalla peakiness-taso, joka tyypillisesti osoittaa ei- stationaarisen puheen.
5. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, tunnettu siitä, että ensimmäisen herätekoodikirjan populaatiotiheys on 30 keskimäärin alueella 5-10 kertaa toisen herätekoodikirjan populaatiotiheys. - 17-
6. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, tunnettu siitä, että peakiness-arvon avulla lasketaan dispersioarvo seuraavalle vaiheiden satunnaistamiselle.
7. Menetelmä puhesignaalin lähettämiseksi lähettimestä vastaanottimelle, tunnettu siitä, että menetelmä käsittää seuraavat vaiheet: muodostetaan kooderissa pulssijono ensimmäistä herätekoodikirjaa käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikhjan paikkaruudukon 10 mukaisesti; muutetaan ensimmäisen paikkasarjan pulssipaikkoja kooderissa niin, että saadaan aikaan toinen paikkasarja toisen herätekoodikhjan paikkaruudukon mukaisesti, ja menetelmässä ensimmäisen herätekoodikhjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikhjan 15 paikkaruudukon; Tuotetaan koodattu herätesignaali lähettimen kooderissa; Lähetetään mainittu koodattu herätesignaali vastaanottimelle; ja Dekoodataan mainittu koodattu herätesignaali dekooderilla syntetisoidun puheen tuottamiseksi vastaanottimessa. 20
8. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että menetelmä suoritetaan pienen bittinopeuden synteesi-analyysi (AbS) -puhekooderilla.
9. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että 25 menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin.
10. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin, jotka määritetään havaitsemalla peakiness-taso, joka tyypillisesti osoittaa ei- 30 stationaarisen puheen. - 18 -
11. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että peakiness-tai dispersiotiedot siirretään kooderista dekooderiin käytettäviksi dekoodatun signaalin vaiheiden satunnaistamiseen.
12. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että ensimmäisen herätekoodikirjan populaatiotiheys on alueella 5-10 kertaa toisen herätekoodikiqan populaatiotiheys.
13. Patenttivaatimuksen 10 tai 11 mukainen menetelmä, tunnettu siitä, että 10 peakiness-arvon avulla lasketaan dispersioarvo dekoodatun signaalin seuraavalle vaiheiden satunnaistamiselle.
14. Kooderi puhesignaalin koodaamiseen, t u n n e t t u siitä, että kooderi käsittää: välineet pulssijonon muodostamiseksi ensimmäistä herätekoodikhjaa 15 käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasaqassa ensimmäisen herätekoodikiqan paikkaruudukon mukaisesti; välineet ensimmäisen paikkasaqan pulssipaikkojen muuttamiseksi niin, että saadaan aikaan toinen paikkasaqa toisen herätekoodikirjan paikkaruudukon 20 mukaisesti, ja jossa ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikiqan paikkaruudukon; ja välineet puheherätesignaalin tuottamiseksi lähettimen kooderissa.
15. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi sisältyy pienten bittinopeuksien synteesi-analyysi (AbS) -puhekooderiin.
16. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi 30 sisältää välineet puhesignaalien ei-stationaaristen segmenttien havaitsemiseksi. - 19-
17. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi sisältää välineet puhesignaalin segmentin peakiness-arvon laskemiseksi.
18. Patenttivaatimuksen 17 mukainen kooderi, tunnettu siitä, että kooderi 5 sisältää välineet dispersioarvon laskemiseksi peakiness-arvosta seuraavaa vaiheiden satunnaistamista varten.
19. Laite, joka käsittää puhekooderin puhesignaalien koodausta ja dekoodausta varten, tunnettu siitä, että laite käsittää: 10 välineet pulssijonon muodostamiseksi ensimmäistä hcrätckoodikirjaa käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikirjan paikkaruudukon mukaisesti välineet ensimmäisen paikkasaijan pulssipaikkojen muuttamiseksi niin, että 15 saadaan aikaan toinen paikkasaija toisen herätekoodikirjan paikkaruudukon mukaisesti, ja jossa ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikirjan paikkaruudukon; ja välineet puheherätesignaalin tuottamiseksi lähettimen kooderissa. 20
20. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite sisältää välineet puhesignaalien ei-stationaaristen segmenttien havaitsemiseksi.
21. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite on kannettava päätelaite.
22. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite on radiotukiasema. 30
FI20011329A 2001-06-21 2001-06-21 Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa FI119955B (fi)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FI20011329A FI119955B (fi) 2001-06-21 2001-06-21 Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
CN02812450.2A CN100489966C (zh) 2001-06-21 2002-06-05 合成分析语音编码器中用于进行语音编码的方法和装置
PCT/FI2002/000482 WO2003001172A1 (en) 2001-06-21 2002-06-05 Method and device for coding speech in analysis-by-synthesis speech coders
EP02727632A EP1397655A1 (en) 2001-06-21 2002-06-05 Method and device for coding speech in analysis-by-synthesis speech coders
US10/167,287 US7089180B2 (en) 2001-06-21 2002-06-10 Method and device for coding speech in analysis-by-synthesis speech coders

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20011329A FI119955B (fi) 2001-06-21 2001-06-21 Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
FI20011329 2001-06-21

Publications (3)

Publication Number Publication Date
FI20011329A0 FI20011329A0 (fi) 2001-06-21
FI20011329A FI20011329A (fi) 2002-12-22
FI119955B true FI119955B (fi) 2009-05-15

Family

ID=8561469

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20011329A FI119955B (fi) 2001-06-21 2001-06-21 Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa

Country Status (5)

Country Link
US (1) US7089180B2 (fi)
EP (1) EP1397655A1 (fi)
CN (1) CN100489966C (fi)
FI (1) FI119955B (fi)
WO (1) WO2003001172A1 (fi)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7535649B2 (en) * 2004-03-09 2009-05-19 Tang Yin S Motionless lens systems and methods
JP4606264B2 (ja) * 2005-07-19 2011-01-05 三洋電機株式会社 ノイズキャンセラ
GB2436192B (en) * 2006-03-14 2008-03-05 Motorola Inc Speech communication unit integrated circuit and method therefor
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
WO2008072733A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置および符号化方法
TW201125376A (en) * 2010-01-05 2011-07-16 Lite On Technology Corp Communicating module, multimedia player and transceiving system comprising the multimedia player
PT3405951T (pt) 2016-01-22 2020-02-05 Fraunhofer Ges Forschung Aparelhos e métodos para codificar ou descodificar um sinal de áudio multicanal utilizando sincronização de controlo de quadro

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3179291B2 (ja) * 1994-08-11 2001-06-25 日本電気株式会社 音声符号化装置
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
US6148282A (en) * 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
CA2283187A1 (en) * 1997-03-12 1998-09-17 Mitsubishi Denki Kabushiki Kaisha A method and apparatus for speech encoding, speech decoding, and speech coding/decoding
US5970444A (en) * 1997-03-13 1999-10-19 Nippon Telegraph And Telephone Corporation Speech coding method
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
AU4201100A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
WO2002023533A2 (en) * 2000-09-15 2002-03-21 Conexant Systems, Inc. System for improved use of pitch enhancement with subcodebooks

Also Published As

Publication number Publication date
US7089180B2 (en) 2006-08-08
CN100489966C (zh) 2009-05-20
EP1397655A1 (en) 2004-03-17
FI20011329A0 (fi) 2001-06-21
US20030055633A1 (en) 2003-03-20
WO2003001172A1 (en) 2003-01-03
FI20011329A (fi) 2002-12-22
CN1650156A (zh) 2005-08-03

Similar Documents

Publication Publication Date Title
JP4927257B2 (ja) 可変レートスピーチ符号化
JP4824167B2 (ja) 周期的スピーチコーディング
Kondoz Digital speech: coding for low bit rate communication systems
ES2360176T3 (es) Alisamiento de discontinuidades entre tramas de habla.
TW497335B (en) Method and apparatus for variable rate coding of speech
US20010016817A1 (en) CELP-based to CELP-based vocoder packet translation
JPH09503874A (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
EP1328928A2 (en) Apparatus for bandwidth expansion of a speech signal
KR20030061839A (ko) 로버스트한 음성 분류를 위한 방법 및 장치
FI118704B (fi) Menetelmä ja laite lähdekoodauksen tekemiseksi
JPH10207498A (ja) マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器
JP2002544551A (ja) 遷移音声フレームのマルチパルス補間的符号化
KR100656788B1 (ko) 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
FI119955B (fi) Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
US6122611A (en) Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
JP2002509294A (ja) 暗騒音条件下における音声符号化の方法
Gersho Speech coding
Sahab et al. SPEECH CODING ALGORITHMS: LPC10, ADPCM, CELP AND VSELP
Gersho Linear prediction techniques in speech coding
Gardner et al. Survey of speech-coding techniques for digital cellular communication systems
Shikui et al. Speech transcoding from AMR to G. 729 in excitation domain
Seereddy Speech coding using multipulse excitation

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 119955

Country of ref document: FI