FI119955B - Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa - Google Patents
Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa Download PDFInfo
- Publication number
- FI119955B FI119955B FI20011329A FI20011329A FI119955B FI 119955 B FI119955 B FI 119955B FI 20011329 A FI20011329 A FI 20011329A FI 20011329 A FI20011329 A FI 20011329A FI 119955 B FI119955 B FI 119955B
- Authority
- FI
- Finland
- Prior art keywords
- speech
- encoder
- excitation
- signal
- codebook
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 57
- 238000003786 synthesis reaction Methods 0.000 title claims description 11
- 230000005284 excitation Effects 0.000 claims description 92
- 239000006185 dispersion Substances 0.000 claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001953 sensory effect Effects 0.000 description 3
- 206010010904 Convulsion Diseases 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002040 relaxant effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 208000031513 cyst Diseases 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000021715 photosynthesis, light harvesting Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001148 spastic effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
-1 -
Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi- puhekoodereissa
Keksinnön alue 5
Esillä oleva keksintö liittyy yleisesti puheenkoodaukseen ja äänisignaaleihin sekä erityisemmin parannettuun herätteen mallintamisproseduuriin synteesi-analyysi-koodereissa.
10 Keksinnön tausta
Puheen ja äänen koodausalgoritmeilla on paljon erilaisia sovelluksia langattomassa viestinnässä, multimediassa ja äänentallennusjärjestelmissä. Koodausalgoritmien kehittymistä edistää tarve säästää siirto- ja tallennuskapasiteettia sekä pitää samalla 15 syntetisoidun signaalin laatu korkeana. Nämä vaatimukset ovat usein varsin ristiriitaisia, ja yleensä joudutaankin tekemään kompromisseja kapasiteetin ja laadun välillä. Puheenkoodaus on erityisen tärkeää matkapuhelinjärjestelmissä, koska täydellisen puheen spektrin siirtäminen vaatii huomattavasti kaistanleveyttä ympäristössä, jossa spektriresurssit ovat suhteellisen rajoittuneet. Näin ollen hyödynnetään signaalin 20 kompressointitekniikoita käyttämällä puheen koodausta ja dekoodausta. Tämä on välttämätöntä, jotta puhetta voitaisiin siirtää tehokkaasti pienillä bittinopeuksilla.
Kuviossa 1 on esitetty esimerkkiproseduuri digitaalisten äänisignaalien siirtämisestä ja/tai tallentamisesta toistettavaksi tämän jälkeen uudelleen lähtöpäässä. Puhesignaali y(k) 25 syötetään kooderiin 100, joka koodaa signaalin alkuperäisen signaalin koodatuksi digitaaliseksi esitykseksi. Tuloksena oleva bittivirta lähetetään viestintäkanavaan (esimerkiksi radiokanavalle) tai tallennusvälineeseen 110, esimerkiksi puolijohdemuistiin tai magneettiseen tai optiseen tallennusvälineeseen. Kanavasta/tallennusvälineestä 110 bittivirta syötetään dekooderiin 120, jossa se dekoodataan ja siitä tuotetaan alkuperäinen 30 signaali y(k) lähtösignaalin y(k) muodossa.
-2-
Puheenkoodausalgoritmit ja -järjestelmät voidaan luokitella eri tavoin perusteista riippuen. Ne voidaan luokitella esimerkiksi aaltomuotokoodereihin, parametrisiin koodereihin ja hybridikoodereihin. Aaltomuotokooderit pyrkivät nimensä mukaisesti 5 säilyttämään koodattavan aaltomuodon mahdollisimman tarkasti, mutta ne eivät kiinnitä juurikaan huomiota puhesignaalin ominaisuuksiin. Aaltomuotokoodereissa on myös se etu, että ne ovat suhteellisen yksinkertaisia rakenteeltaan ja toimivat tyypillisesti hyvin meluisassa ympäristössä. Ne vaativat yleensä kuitenkin suhteellisen suuria bittinopeuksia laadukkaan puheen tuottamiseen. Hybridikooderit käyttävät aaltomuototekniikoiden ja 10 parametristen tekniikoiden yhdistelmää, eli ne käyttävät tyypillisesti parametrisia menetelmiä esimerkiksi ääniväylän mallintamiseen LPC-suodattimella. Suodattimen tulosignaali koodataan tämän jälkeen menetelmällä, joka voitaisiin luokitella aaltomuodon koodausmenetelmäksi. Hybridipuhekoodereita käytetään nykyisin laajalti tuottamaan lähes lankapuhelimen tasoista puhelaatua bittinopeuksilla, jotka vaihtelevat 15 välillä 8-12 kbps.
Monissa nykyisissä hybridikoodereissa siirretyt parametrit määritetään synteesi-analyysi (AbS) -menetelmällä, jossa valittu vääristymisperuste minimoidaan alkuperäisen puhesignaalin ja rekonstruoidun puheen välillä kutakin mahdollista parametriarvoa 20 vastaavasti. Näitä koodereita kutsutaankin usein AbS-puhekoodereiksi. Esimerkkinä tyypillisessä AbS-kooderissa ehdotettu heräte otetaan koodikiijasta ja suodatetaan LPC-suodattimen läpi, ja suodatetun signaalin ja tulosignaalin välinen virhe lasketaan niin, että pienimmän virheen tarjoava vaihtoehto tulee valituksi.
25 Tyypillisessä AbS-puhekooderissa puheen tulosignaali käsitellään kehyksinä. Kehyksen pituus on yleensä 10-30 ms, ja saatavilla on myös seuraavan kehyksen 5-15 ms:n tähystyssegmentti. Jokaisessa kehyksessä kooderi määrittää puhesignaalin parametrisen esityksen. Parametrit kvantisoidaan ja siirretään viestintäkanavan läpi tai tallennetaan tallennusvälineeseen digitaalisessa muodossa. Vastaanottavassa päässä dekooderi 30 muodostaa alkuperäistä signaalia edustavan syntetisoidun puhesignaalin vastaanotettujen parametrien perusteella.
-3 -
Yksi tärkeä synteesi-analyysi-kooderin luokka on CELP (Code Excited Linear Predictive) -puhekooderi, jota käytetään laajalti monissa langattomissa digitaalisissa tiedonsiirtojärjcstelmissä. CELP on tehokas suljetun silmukan synteesi-analyysi-5 koodausmenetelmä, joka on osoittanut toimivansa hyvin pienten bittinopeusten järjestelmissä (4-16 kbps). CELP-koodereissa puhe segmentoidaan kehyksiksi (esim. 10-30 ms) niin, että jokaiselle kehykselle määritetään ja kvantisoidaan optimaalinen lineaarisen ennustuksen ja äänenkorkeuden suodatusparametrien sarja. Kukin puhekehys jaetaan edelleen useisiin alikehyksiin (esimerkiksi 5 ms), ja jokaista alikehystä kohti 10 haetaan herätekoodikiijasta tulovektori kvantisoituun enn ustinjärj cstelmään, joka tuottaa alkuperäisen puhesignaalin parhaiten.
Useimpien AbS-koodereiden perusrakenne on varsin samanlainen. Niissä on tyypillisesti tietyntyyppinen lineaarinen ennustava koodaustekniikka (LPC), esimerkiksi sarjassa 15 olevat aikavariantti äänenkorkeuden ennustin ja LPC-suodatin. Kaikkinapaista (All-Pole) LPC-suodatinta: —-—=-r-, (1) A(q,s) l + a^sjg 1 +a2(s)q 2 +... + an (s)q n° 20 jossa q~l on yksikköviiveoperaattori ja s alikehyksen indeksi, käytetään mallintamaan puhesignaalin lyhytaikaista spektrin yleistä muotoa. LPC-suodattimen asteluku na on tyypillisesti 8-12. Äänenkorkeuden ennustin, jonka muoto on B(q,s) 1 -b(s)q~x(s) ^ ^ 25 käyttää puheen äänenkorkeuden jaksollisuutta spektrin hienorakenteen mallintamiseen. Tyypillisesti vahvistus b(s) rajoittuu intervallin [0, 1.2] ja äänenkorkeusviive τ(.ν) -4- intervallin [20, 140] näytteisiin (jos näytteenottotaajuus on 8 000 Hz). Äänenkorkeuden ennustimesta käytetään myös nimitystä pitkän aikavälin suodatin eli LTP-suodatin.
Kuviossa 2 on esitetty yksinkertaistettuna funktionaalisena lohkokaaviona esimerkki 5 AbS-puhekooderista. herätesignaali uc(k) syntyy herätegeneraattorissa 200. Herätegeneraattorista 200 käytetään usein nimitystä herätekoodikiija, jossa signaali kerrotaan vahvistuksella g(s) 205 ja muodostaa tulosignaalin suodatinsarjaan 225. Takaisinkytkentäsihnukka, joka koostuu viiveestä q~'(s) 215 ja vahvistuksesta b(s) 210, edustaa LTP-suodatinta. LTP-suodatin mallintaa signaalin jaksollisuutta, joka on 10 erityisen tärkeä soinnillisessa puheessa, jossa aiempaa jaksollista puhetta käytetään nykyisen alikehyksen puheen likimääränä ja virhe koodataan kiinteällä herätteellä, esimerkiksi algebrallisella koodikirjalla. Suodatinsaijan 225 ulostulo on syntetisoitu puhesignaali y(k). Kooderissa virhesignaali e(k) (keskimääräinen neliöity painotettu virhe) lasketaan vähentämällä syntetisoitu puhesignaali y(k) alkuperäisestä 15 puhesignaalista y(k). Virheen minimointiproseduuria 235 käytetään, kun valitaan herätegeneraattorin 200 tuottama paras herätesignaali. Tyypillisesti virhesignaaliin sovelletaan havainnointipainotussuodatinta ennen virheen minimointiproseduuria, jotta virhesignaalin spektri voitaisiin muotoilla kuulumattomammaksi.
20 Vaikka AbS-puhekooderit ovat yleensä hyvin suorituskykyisiä pienillä bittinopeuksilla, ne ovat laskennallisesti suhteellisen vaativia. Niiden toinen ominaisuus on se, että pienillä bittinopeuksilla (esim. alle 4 kbps) sovittaminen alkuperäisen puheen aaltomuotoon rajoittaa pahasti koodauksen tehon parantamista. Tämä pätee yleensä puheen koodaukseen: niin soinnillisen, soinnittoman kuin klusiilisenkin puheen. Vaikka 25 soinnillisen puheen mallintamisen parantamiseksi onkin esitetty ratkaisuja, merkittäviä parannuksia ei-stationaarisen puheen, esimerkiksi klusiilien, mallintamiseen ei ole vielä esitetty. Kuten alan asiantuntijat tietävät, klusiileilla ja soinnittomalla puheella on taipumusta katkonaisuuteen (esimerkkinä umpiäänteet, kuten /p/, Iki ja lii). Nämä puheaaltomuodot ovat erityisen hankalia mallintaa tarkasti tekniikan tason mukaisissa 30 alhaisen bittinopeuden AbS-koodereissa, koska alkuperäisten ja koodattujen -5 - herätesignaalien välillä on usein selkeä yhteensopimattomuus johtuen siitä, että bittejä ei ole riittävästi alkuperäisen herätteen tarkkaan mallintamiseen. Yleisen aaltomuotoprofiilin erot aiheuttavat sen, että koodatun herätteen energia on paljon pienempi kuin ideaalisen herätteen parametrin arviointimenetelmästä johtuen. Tämän seurauksena syntetisoitu 5 puhe voi usein kuulostaa luonnottomalta hyvin matalalla energiatasolla.
Kuviossa 3 on esitetty tuloksena oleva CELP-kooderin synteettinen heräte käytettäessä koodikiijaa, jolla on suhteellisen korkea pulssin populaatiotiheys (koodikirja 1) eli tiheä pulssin paikkaristikko. Esillä on myös tuloksena oleva synteettinen heräte käytettäessä 10 koodikirjaa, jolla on suhteellisesti pienempi pulssin populaatiotiheys (koodikirja 2). Yläkaaviossa A on esitetty äänen /p/ ideaalinen heräte. Molemmissa koodikirjoissa käytetään kahta positiivista tai negatiivista pulssia 40 näytteen alikehyksen päällä. Pulssien esimerkkisijainnit ja -muutokset yksittäisissä koodikirjoissa on esitetty erikseen taulukoissa 1 ja 2, tässä järjestyksessä. Kuten alakaaviosta C voidaan nähdä, 15 herätesignaalilla, joka on muodostettu käyttämällä taulukon 2 koodikirjaa, on paljon matalampi energiataso kuin ideaalisella herätteellä (yläkaavio), koska pulssien mahdolliset sijainnit eivät vastaa hyvin pulssin sijainteja ideaalisessa herätteessä. Koodikirjaa 1 käytettäessä energiataso on sitä vastoin huomattavasti korkeampi, koska pulssien sijainnit vastaavat tarkemmin ideaalista herätettä, kuten keskikaaviossa B on 20 esitetty. Molemmissa koodikirjoissa käytetään vain yhtä pulssivahvistusta alikehystä kohti, ja mukautuvia koodikirjoja ei käytetä.
Pulssi Paikat 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24,26, 28, 30, 32, 34, 36, 38 0 1 1, 3, 5, 7,9, 11, 13, 15, 17, 19,21,23,25,27,29,31,33,35,37,39 TAULUKKO 1 -6-
Pulssi Paikat O, 4, 8, 12, 16, 20, 24, 28, 32, 36 0 2, 6, 10, 14, 18, 22, 26, 30, 34, 38 TAULUKKO 2 5 Tuloksena oleva energiaero syntetisoitujen herätteiden välillä on selvästi näkyvissä, kun käytetään koodikirjaa, jossa on vähemmän pulssin paikkoja, jolloin matalamman energiatason heräte tuottaa tulokseksi epätyydyttävän ja tuskin kuuluvan äänen. Aiemmin esitetyn valossa tarvitaan parannettu menetelmä, jonka avulla AbS-puhekooderit pystyvät tuottamaan tarkemmin laadukasta puhetta puhesignaaleissa, jotka sisältävät ei-10 stationaarista puhetta.
Yhteenveto keksinnöstä
Esillä oleva keksintö kuvaa menetelmän puhesignaalin koodaamiseksi ja lähettämiseksi 15 sekä vastaavan kooderin sekä laitteen. Menetelmille, kooderille ja laitteelle tunnusomaista on liitettyjen patenttivaatimusten itsenäisten patenttivaatimusten tunnusmerkkiosassa kuvatut seikat. Esillä olevan keksinnön lisäsovelluksia kuvataan liitetyissä epäitsenäisissä vaatimuksissa.
20 Kuvien lyhyt esittely
Keksintö sekä siihen liittyvät muut tavoitteet ja edut on ehkä helpointa ymmärtää viittaamalla seuraavaan kuvaukseen, johon liittyvät seuraavat kuvat: -7-
Kuviossa 1 on esitetty esimerkkinä digitaalisten äänisignaalien siirtäminen ja/tai tallentaminen.
Kuviossa 2 on esitetty yksinkertaistettuna funktionaalisena lohkokaaviona esimerkki 5 synteesi-analyysi (AbS) -puhekooderista.
Kuviossa 3 on esitetty herätesignaalien energiasisällön ero, joka syntyy siitä, että koodikirjoissa on eri määrä pulssin paikkoja.
10 Kuviossa 4 on esitetty lohkokaaviona esimerkki AbS-koodausproseduurista.
Kuviossa 5 on esitetty ideaalinen herätesignaali esillä olevan keksinnön suoritusmuodon mallintamana.
15 Kuviossa 6 on esitetty esimerkki huippukohdan arvokäyrästä esimerkkinä olevalle ideaaliselle herätesignaalille.
Kuviossa 7 on esitetty vaihedispersiosuodatuksen vaikutus koodattuun herätesignaaliin.
20 Kuviossa 8 on esitetty esimerkki laitteesta, jossa käytetään esillä olevan keksinnön mukaista puhekooderia.
Kuviossa 9 on esitetty toiminnallinen peruslohkokaavio esimerkkinä kannettavasta päätelaitteesta, johon sisältyy keksitty puhekooderi.
25
Yksityiskohtainen kuvaus keksinnöstä
Kuten edellä on mainittu, klusiileja tai soinnitonta puhetta sisältävien puhesegmenttien mallintaminen tarkasti aiempien toteutusten mukaisilla AbS-puhekoodereilla on ollut 30 yleensä hankalaa. Korkealaatuisen puheen aikaan saaminen edellyttää hyvää tuntemusta puhesignaaleista ja ihmisaistien ominaisuuksista. Tiedetään esimerkiksi, että tietyntyyppisiä koodausvääristymiä ei havaita, koska signaali peittää ne, ja näin yhdessä signaalin redundanssin kanssa puheen laatua voidaan parantaa pienillä bittinopeuksilla.
-8-
Kuviossa 4 on esitetty lohkokaaviona esimerkki AbS-koodausproseduurista. On syytä 5 huomata, että kaikkia funktionaalisia komponenttilohkoja ei tarvitse välttämättä toteuttaa jokaisessa alikehyksessä. Esimerkiksi IS-641-puhekooderissa kehys jaetaan neljäksi alikehykseksi, joissa esimerkiksi LPC-suodatinparametrit määritetään kerran kehystä kohti, avoimen silmukan viive kaksi kertaa kehystä kohti ja suljetun silmukan viive, LTP-vahvistus, herätesignaali ja sen vahvistus neljä kertaa kehystä kohti. Perusteellisempi 10 esitys IS-641-kooderista on asiakhjassa TIA/EIA IS-641-A, TDMA Cellular/PCS -Radio Interface, Enhanced Full-Rate Voice Codec, Revision A.
Lohkossa 410 LPC-suodattimen kertoimet määritetään puheen tulosignaalin perusteella. Puhesignaali ikkunoidaan tyypillisesti segmenteiksi, ja LPC-suodatinkertoimet 15 määritetään esimerkiksi Levinson-Durbin-algoritmeilla. On syytä huomata, että termi "puhesignaali" voi viitata mihin tahansa signaaliin, joka on johdettu äänisignaalista (esimerkiksi puheesta tai musiikista), ja se voi olla itse puhesignaali tai digitoitu signaali, jäännössignaali jne. Monissa koodereissa LPC-kertoimia ei tyypillisesti määritetä jokaiselle alikehykselle. Tällaisissa tapauksissa kertoimet voidaan interpoloida välissä 20 oleville alikehyksille. Lohkossa 420 tulopuhe suodatetaan A(q, s): 11 a ja tuotetaan LPC-jäännössignaali. LPC-jäännöksen avulla tuotetaan tämän jälkeen uudelleen alkuperäinen puhesignaali, kun se syötetään LPC-suodattimen 1 /A(q, s) läpi. Tämän vuoksi sitä kutsutaan joskus ideaaliseksi herätteeksi.
25 Lohkossa 430 avoimen silmukan viive määritetään etsimällä viivearvo, joka antaa korkeimman autokorrelaatioarvon puheelle tai LPC-jäännössignaalille. Lohkossa 440 kohdesignaali x(k) suljetun silmukan viiveen hakua varten lasketaan vähentämällä LPC-suodattimen nollatulovaste puhesignaalista. Näin voidaan ottaa huomioon LPC-suodattimen alkutilojen vaikutus pehmeästi kehittyvää signaalia varten. Lohkossa 450 30 haetaan suljetun silmukan viivettä ja vahvistusta minimoimalla kohdesignaalin ja syntetisoidun puhesignaalin välinen keskimääräinen summattu neliö virhe. Suljetun -9- silmukan viivettä etsitään avoimen silmukan viivearvon ympäriltä. Esimerkiksi avoimen silmukan viivearvo on arvio, jota ei haeta AbS:llä ja jonka ympäriltä suljetun silmukan viivettä etsitään. Avoimen silmukan viiveelle käytetään tyypillisesti kokonaislukutarkkuutta, kun taas murtolukutarkkuutta voidaan käyttää suljetun silmukan 5 viiveen haussa. Tarkempi selitys löytyy esimerkiksi aiemmin mainitussa IS-641-selvityksessä.
Lohkossa 460 kohdesignaali x2(k) herätehaulle lasketaan vähentämällä LTP-suodattimen osuus suljetun silmukan viivehaun kohdesignaalista. Herätesignaalia ja sen vahvistusta 10 haetaan tämän jälkeen minimoimalla kohdesignaalin ja syntetisoidun puhesignaalin välinen summattu neliövirhe lohkossa 470. Tässä vaiheessa voidaan tyypillisesti ottaa käyttöön joitakin heuristisia sääntöjä, joilla voidaan välttää kaikkien mahdollisten ehdotettujen herätesignaalien täydellinen haku koodikirjasta hakuajan lyhentämiseksi. Lohkossa 480 kooderin suodatintilat päivitetään, jotta ne vastaisivat dekooderin 15 suodatintiloja. On syytä huomata, että koodausproseduuri sisältää myös siirrettävien parametrien kvantisoinnin, joiden tarkempi esittely on jätetty pois selkeyden vuoksi.
Aiemmissa toteutuksissa optimaalista herätejonoa sekä LTP-vahvistusta ja herätejonoa haetaan minimoimalla kohdesignaalin ja syntetisoidun signaalin välinen summattu 20 neliövirhe, J(gP)>ucp)) = ||x2p) - i2(i)||2 = ||x2P) - gp)H(i)ucp)||\ (3) jossa x2(.v) on kohdevektori, joka koostuu x2(k) -näytteistä hakuhorisontissa, x2(,v) on 25 vastaava syntetisoitu signaali ja uc(.v) on herätevektori kuvioissa 2 ja 3 esitetyllä tavalla. H(s) on LPC-suodattimen impulssivastematriisi ja g(s) on vahvistus. Optimaalinen vahvistus voidaan löytää määrittämällä kustannusfunktion osittaisderivaatta vahvistuksen suhteen nollaksi, rt- *2P)THp)ucp) (λ\ §(S) ucCv)TH(.v)TH(.v)uc(.v) ' ( } - 10- Tällöin sijoittamalla (4) (3):een saadaan tulokseksi _ MT / Λ (x2(^)TH(5)Uc(5))2 J(uc(s)) - x2(s) x2(s) Uc(5)th(5)th(5)Uc(5)· (5) 5
Optimaalista herätettä haetaan yleensä maksimoimalla yhtälön (5) jälkimmäinen termi, x2(.sjTH(.sj ja H(.sjTH(.v) voidaan laskea ennen herätehakua.
Esillä olevassa keksinnössä kuvataan menetelmää, jossa heräte mallinnetaan ei-10 stationaaristen puhesegmenttien aikana synteesi-analyysi-puhekooderilla. Menetelmä hyötyy kuuloaistiominaisuuksista; ihmiskorvan kyvyttömyyttä erottaa tarkasti puhesignaaleiden sisältämät valhetiedot hyödynnetään lieventämällä koodatun herätesignaalin aaltomuodon sovituksen rajoitteita. Menetelmää käytetään edullisimmin ei-stationaariseen tai soinnittomaan puheeseen. Lisäksi yhdistämällä mukautuva 15 vaihedispersio koodattuun herätteeseen voidaan tehokkaasti säilyttää signaalin tärkeimmät ominaisuudet.
Keksinnön eräässä suoritusmuodossa aaltomuodon sovituksen rajoitetta lievennetään kiinteän koodikirjan herätettä luotaessa. Tässä suoritusmuodossa kahden 20 pulssinpaikkakoodikiijan, koodikirjojen 1 ja 2 avulla johdetaan siirretty heräte sekä sen vahvistus. Ensimmäistä pulssinpaikkakoodikiqaa käytetään vain kooderissa, ja se sisältää tiheän paikkaruudukon (tai komentosanan). Toinen koodikhja on pienempi ja se sisältää muutetut pulssien paikat, ja sitä käytetään täten sekä kooderissa että dekooderissa. Siirretty herätesignaali ja sen vastaava vahvistusarvo voidaan johtaa seuraavasti: ensin 25 haetaan optimaalista herätesignaalia ja sen vahvistusta koodikhjan 1 avulla. Koska koodikiqan ruudukko on suhteellisen tiheä, ideaalisen herätesignaalin muoto ja energia säilyvät tehokkaasti. Toiseksi löydetyt pulssin paikat kvantisoidaan koodikhjan 2 mahdollisiksi pulssin paikoiksi esimerkiksi etsimällä lähin pulssin paikka koodikhjasta 2 i. nnelle pulssille sen saman pulssin paikaksi, joka löytyi koodikhjaa 1 käyttämällä. Täten 30 z':nnen pulssin kvantisoitu pulssin paikka 0(¾) johdetaan esimerkiksi minimoimalla - 11 - d (xy, Q{x x)) = min I x -y |, (6) y«,2eCi,2 jossa xL] on koodikirjan 1 zinnen pulssin paikka ja CL2 sisältää koodikaan 2 /'innon 5 pulssin mahdolliset pulssin paikat. Koodikirjaa 1 käyttämällä saatu vahvistusarvo siirretään dekooderiin. On syytä huomata, että tässä hakemuksessa viitataan termeihin pulssit ja pulssin paikat, mutta muunkin tyyppisiä esityksiä (esimerkiksi näytteitä, aaltomuotoja ja aallokkeita) voidaan käyttää esimerkiksi koodikirjan paikkojen merkitsemiseen tai pulssien esittämiseen koodatussa signaalissa. On syytä huomata, että 10 ylempänä viitataan pulsseihin ja pulssin paikkoihin, mutta muunkin tyyppisiä esityksiä (esimerkiksi aaltomuotoja ja aallokkeita) voidaan käyttää esimerkiksi koodikirjan paikkojen merkitsemiseen tai pulssien esittämiseen koodatussa signaalissa.
Kuviossa 5 on esitetty kuvion 3 ideaalinen heräte, joka on mallinnettu keksinnön 15 suoritusmuodolla käyttämällä taulukoissa 1 ja 2 (tässä järjestyksessä) olevia koodikirjoja 1 ja 2. Kuten kuviosta näkyy, ideaalisen herätteen energia ja muoto voidaan säilyttää tehokkaammin käyttämällä koodikirjoja 1 ja 2 yhdessä kuin käyttämällä vain yhtä koodikirjaa, kuten aiemmissa toteutuksissa. Molemmissa tapauksissa bittinopeus pysyi samana.
20
Toinen merkittävä aspekti on koodatun herätesignaalin energiadispersio. Ideaalisen herätteen energiadispersion jäljittelemiseksi koodattuun herätesignaaliin yhdistetään mukautuva suodatusmekanismi. Keksinnön yhteydessä voidaan käytää useita suodatusmenetelmiä. Tässä suoritusmuodossa käytetään suodatusmenetelmää, jossa 25 toivottu dispersio saadaan aikaan satunnaistamalla koodatun herätesignaalin asiaan kuuluvat vaihekomponentit. Yksityiskohtaisempi esitys suodatusmekanismista on teoksissa Removal of sparse-excitation artifacts in CELP (kirjoittaneet R. Hagen, E. Ekudden ja B. Johansson) sekä W.B. Kleijn: Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Seattle, May 1998.
30 - 12-
Suodatusmenetelmässä määritetään kynnystaajuus, jonka yläpuolella vaihekomponentit satunnaistetaan ja jonka alapuolella komponentit jäävät ennalleen. Vaihedispersion, joka toteutetaan koodatulle signaalille pelkästään dekooderissa, on havaittu tuottavan korkeaa laatua. Tässä suoritusmuodossa otetaan käyttöön kynnystaajuudcn mukautusmenetelmä, 5 jolla valvotaan dispersion määrää. Kynnystaajuus johdetaan ideaalisen herätesignaalin huippukohta-arvosta, jossa huippukohta-arvo määrittää kehyksen sisäisen energiahajonnan. Huippukohta-arvo P määritellään yleensä ideaaliselle herätteelle r(n), ja se saadaan seuraavasti: J\lNYN~lr2(n + \) 10 p=s - i;::11-, (7) ι^Ε„0ιφ+ι)ι jossa N on kehyksen pituus, josta huippukohta-arvo lasketaan, ja r(n) on ideaalinen herätesignaali.
15 Kuviossa 6 on esitetty esimerkki huippukohdan arvokäyrästä esimerkin mukaiselle herätesignaalille. Yläkaaviossa A on esitetty ideaalinen herätesignaali, kun taas alakaaviossa B on esitetty vastaava huippukohtakäyrä, jossa kehyskoko on 80 näytettä, laskettuna yhtälöllä (7). Kuten käy ilmi, tuloksena oleva arvo antaa hyvän osoituksen signaalin huippuominaisuuksista ja korreloi hyvin ideaalisen herätteen yleisen 20 huipputoiminnan kanssa, sillä huomattavan huipputoiminnan tiedetään olevan klusiilipuheen merkki.
Tässä suoritusmuodossa koodattuun herätteeseen yhdistetään mukautuva vaihedispersio, jotta ideaalisen herätteen energiadispersio voitaisiin säilyttää paremmin. Dekoodatun 25 puhesignaalin energian yleinen muoto on tärkeä, jotta syntetisoitu puhe kuulostaisi luonnolliselta. Ihmisten aistiominaisuuksien perusteella tiedetään, että esimerkiksi klusiilien aikana signaalin huippupalkan tarkka sijainti tai spektrin yleisen muodon tarkka esitys ei ole olennaisen tärkeää korkealaatuisen puheenkoodauksen kannalta.
- 13 -
Mukautuva kynnystaajuus, jonka yläpuolella valhetiedot satunnaistetaan, määritetään keksinnössä huippukohta-arvon funktioksi. On syytä huomata, että tämä suhde voidaan määrittää usealla eri tavalla. Yksi, mutta ei missään nimessä ainoa esimerkki, on paloittain lineaarinen funktio, joka voidaan määrittää seuraavasti: 5 απ, p<pi«» dispthr = · απ + (P - PhJ{% -απ) l(Phigh - PJ), Phw <P< Phigh, (8)
π, p>PhigH
jossa a € [O, l] määrittää kynnystaajuuden alarajan, jonka alla dispersio pysyy vakiona, ja Plow sekä Phigh määrittävät huippukohta-arvon rajat, joiden ulkopuolella kynnystaajuus 10 pysyy vakiona.
Kuviossa 7 on esitetty kaavio vaihedispersiosuodatuksen vaikutuksesta koodattuun herätesignaaliin. Kuvion 6 mukainen ideaalinen herätesignaali mallinnetaan IS-641-kooderilla lukuun ottamatta klusiileja /p/, Iti ja Iki. Mallinnuksessa käytetään kuvattua 15 menetelmää, johon sisältyy kaksi kiinteää koodikirjaa, ja yhtä vahvistusarvoa 40 näytettä kohti. Tässä kohtaa on syytä huomata, että LTP-tietojen osuus jätettiin huomiotta klusiilien aikana. Yläkaaviossa A esitellään koodattu heräte, joka on saatu aikaan ilman vaihedispersiota. Alakaaviossa B on esitetty vaihedispersioitu heräte, jonka parametriarvot ovat Plov =1.5, Phigh = 3 ja a = 0.5. Jotta kuvatun kaltaista 20 vaihedispersiomenetelmää voitaisiin käyttää, tiedot kynnystaajuudesta on lähetettävä koodauspäästä dekooderille. Dekooderissa käytetään joko dispersoimatonta tai dispersoitua herätesignaalia vaadittavien muistien päivittämiseen. Tämän keksinnöllisen tekniikan käyttäminen mukautuvan dispersiosuodatuksen hyödyntämisessä tuottaa tulokseksi luonnolliselta kuulostavan syntetisoidun puheen, kuten voidaan nähdä 25 kaaviosta B kuviossa 7.
Kuviossa 8 on esitetty esimerkkisovellus esillä olevan keksinnön mukaisesta puhekooderista 810, joka toimii laitteessa 800, esimerkiksi kannettavassa päätelaitteessa.
Lisäksi laite 800 voi olla myös verkkoradiotukiasema, äänentallennus- tai ääniviestilaite, jossa keksinnön mukainen puhekooderi 810 on toteutettu.
- 14-
Kuviossa 9 on esitetty toiminnallinen peruslohkokaavio esimerkkinä kannettavasta 5 päätelaitteesta, johon on yhdistetty keksitty puhekooderi. Siirtoprosessissa käyttäjän puhesignaali poimitaan mikrofonilla 900 ja siitä otetaan näyte A/D-muuntimessa 905. Digitoitu puhesignaali koodataan tämän jälkeen puhekooderissa 910 keksinnön suoritusmuodon mukaisesti. Kantataajuussignaalin käsittely tehdään koodatulle signaalille, jotta voidaan tuottaa oikea kanavakoodaus lohkossa 915. Kanavakoodattu 10 signaali muunnetaan tämän jälkeen radiotaajuussignaaliksi ja siirretään lähettäjältä 920 duplex-suodattimen 925 läpi. Duplex-suodatin 925 sallii antennin 930 käytön sekä radiosignaalien lähettämisessä että vastaanottamisessa. Vastaanotetut radiosignaalit käsitellään vastaanotinhaarassa 935, jossa ne dekoodataan puhedekooderilla 940 keksinnön suoritusmuodon mukaisesti. Dekoodattu puhesignaali lähetetään D/A-15 muuntimen 945 läpi muunnettavaksi analogiseksi signaaliksi, ja sen jälkeen se lähetetään kaiuttimeen 950 syntetisoidun puheen tuottamista varten.
Esillä oleva keksintö käsittelee tekniikkaa, jolla voidaan parantaa koodatun puheen laatua AbS-koodereissa bittinopeutta lisäämättä. Tämä saadaan aikaan lieventämällä 20 aaltomuodon sovituksen rajoitteita ei-stationaariselle (klusiilit) tai soinnittomille puhesignaaleille paikoissa, joissa tarkat äänenkorkeustiedot ovat tyypillisesti kuulijan aistien kannalta merkityksettömiä. On syytä huomata, että keksintö ei rajoitu klusiilisen puheen havaitsemiseen tarkoitettuun kuvattuun huippukohtamenetelmään ja että mitä tahansa muuta sopivaa menetelmää voidaan käyttää menestyksekkäästi. On mahdollista 25 käyttää esimerkiksi tekniikoita, jotka mittaavat paikallisen signaalin laatua, esimerkiksi muutosvauhtia tai energiaa. Klusiilien havaitsemiseen voidaan käyttää myös tekniikoita, jotka käyttävät keskihajontaa tai -korrelaatiota.
Vaikka esillä olevaa keksintöä on kuvattu joiltakin osin viitaten sen tiettyyn 30 suoritusmuotoon, alan asiantuntijat ymmärtävät siihen liittyvät variaatiot ja muunnelmat. Erityisesti keksinnön konsepti ei rajoitu puhesignaaleihin, vaan sitä voidaan soveltaa - 15 - esimerkiksi musiikkiin ja muuntyyppisiin ääniin. Siksi seuraavien patenttivaatimuksien tulkintaa ei tule rajoittaa, vaan niihin tulee lukea mukaan variaatiot ja muunnelmat, jotka on johdettu esillä olevasta keksinnön aiheesta.
Claims (23)
1. Menetelmä puhesignaalin koodaamiseksi, tunnettu siitä, että menetelmä käsittää: muodostetaan kooderissa pulssijono ensimmäistä h e räteko o dikirj aa 5 käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikirjan paikkaruudukon mukaisesti; muutetaan ensimmäisen paikkasarjan pulssipaikkoja kooderissa niin, että saadaan aikaan toinen paikkasarja toisen herätekoodikirjan paikkaruudukon 10 mukaisesti, ja menetelmässä ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikirjan paikkaruudukon; ja Tuotetaan koodattu herätesignaali. 15
2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmä suoritetaan pienen bittinopeuden synteesi-analyysi (AbS) -puhekooderilla.
3. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin.
4. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin, jotka 25 määritetään havaitsemalla peakiness-taso, joka tyypillisesti osoittaa ei- stationaarisen puheen.
5. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, tunnettu siitä, että ensimmäisen herätekoodikirjan populaatiotiheys on 30 keskimäärin alueella 5-10 kertaa toisen herätekoodikirjan populaatiotiheys. - 17-
6. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, tunnettu siitä, että peakiness-arvon avulla lasketaan dispersioarvo seuraavalle vaiheiden satunnaistamiselle.
7. Menetelmä puhesignaalin lähettämiseksi lähettimestä vastaanottimelle, tunnettu siitä, että menetelmä käsittää seuraavat vaiheet: muodostetaan kooderissa pulssijono ensimmäistä herätekoodikirjaa käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikhjan paikkaruudukon 10 mukaisesti; muutetaan ensimmäisen paikkasarjan pulssipaikkoja kooderissa niin, että saadaan aikaan toinen paikkasarja toisen herätekoodikhjan paikkaruudukon mukaisesti, ja menetelmässä ensimmäisen herätekoodikhjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikhjan 15 paikkaruudukon; Tuotetaan koodattu herätesignaali lähettimen kooderissa; Lähetetään mainittu koodattu herätesignaali vastaanottimelle; ja Dekoodataan mainittu koodattu herätesignaali dekooderilla syntetisoidun puheen tuottamiseksi vastaanottimessa. 20
8. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että menetelmä suoritetaan pienen bittinopeuden synteesi-analyysi (AbS) -puhekooderilla.
9. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että 25 menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin.
10. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että menetelmää sovelletaan puhesignaalin ei-stationaarisiin puhesegmentteihin, jotka määritetään havaitsemalla peakiness-taso, joka tyypillisesti osoittaa ei- 30 stationaarisen puheen. - 18 -
11. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että peakiness-tai dispersiotiedot siirretään kooderista dekooderiin käytettäviksi dekoodatun signaalin vaiheiden satunnaistamiseen.
12. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että ensimmäisen herätekoodikirjan populaatiotiheys on alueella 5-10 kertaa toisen herätekoodikiqan populaatiotiheys.
13. Patenttivaatimuksen 10 tai 11 mukainen menetelmä, tunnettu siitä, että 10 peakiness-arvon avulla lasketaan dispersioarvo dekoodatun signaalin seuraavalle vaiheiden satunnaistamiselle.
14. Kooderi puhesignaalin koodaamiseen, t u n n e t t u siitä, että kooderi käsittää: välineet pulssijonon muodostamiseksi ensimmäistä herätekoodikhjaa 15 käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasaqassa ensimmäisen herätekoodikiqan paikkaruudukon mukaisesti; välineet ensimmäisen paikkasaqan pulssipaikkojen muuttamiseksi niin, että saadaan aikaan toinen paikkasaqa toisen herätekoodikirjan paikkaruudukon 20 mukaisesti, ja jossa ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikiqan paikkaruudukon; ja välineet puheherätesignaalin tuottamiseksi lähettimen kooderissa.
15. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi sisältyy pienten bittinopeuksien synteesi-analyysi (AbS) -puhekooderiin.
16. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi 30 sisältää välineet puhesignaalien ei-stationaaristen segmenttien havaitsemiseksi. - 19-
17. Patenttivaatimuksen 14 mukainen kooderi, tunnettu siitä, että kooderi sisältää välineet puhesignaalin segmentin peakiness-arvon laskemiseksi.
18. Patenttivaatimuksen 17 mukainen kooderi, tunnettu siitä, että kooderi 5 sisältää välineet dispersioarvon laskemiseksi peakiness-arvosta seuraavaa vaiheiden satunnaistamista varten.
19. Laite, joka käsittää puhekooderin puhesignaalien koodausta ja dekoodausta varten, tunnettu siitä, että laite käsittää: 10 välineet pulssijonon muodostamiseksi ensimmäistä hcrätckoodikirjaa käyttämällä, jolloin pulssijono sisältää useita pulsseja, jotka sijaitsevat ensimmäisessä paikkasarjassa ensimmäisen herätekoodikirjan paikkaruudukon mukaisesti välineet ensimmäisen paikkasaijan pulssipaikkojen muuttamiseksi niin, että 15 saadaan aikaan toinen paikkasaija toisen herätekoodikirjan paikkaruudukon mukaisesti, ja jossa ensimmäisen herätekoodikirjan paikkaruudukon pulssipaikkojen populaatiotiheys on suurempi kuin toisen herätekoodikirjan paikkaruudukon; ja välineet puheherätesignaalin tuottamiseksi lähettimen kooderissa. 20
20. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite sisältää välineet puhesignaalien ei-stationaaristen segmenttien havaitsemiseksi.
21. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite on kannettava päätelaite.
22. Patenttivaatimuksen 19 mukainen laite, tunnettu siitä, että laite on radiotukiasema. 30
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20011329A FI119955B (fi) | 2001-06-21 | 2001-06-21 | Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa |
PCT/FI2002/000482 WO2003001172A1 (en) | 2001-06-21 | 2002-06-05 | Method and device for coding speech in analysis-by-synthesis speech coders |
CN02812450.2A CN100489966C (zh) | 2001-06-21 | 2002-06-05 | 合成分析语音编码器中用于进行语音编码的方法和装置 |
EP02727632A EP1397655A1 (en) | 2001-06-21 | 2002-06-05 | Method and device for coding speech in analysis-by-synthesis speech coders |
US10/167,287 US7089180B2 (en) | 2001-06-21 | 2002-06-10 | Method and device for coding speech in analysis-by-synthesis speech coders |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20011329A FI119955B (fi) | 2001-06-21 | 2001-06-21 | Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa |
FI20011329 | 2001-06-21 |
Publications (3)
Publication Number | Publication Date |
---|---|
FI20011329A0 FI20011329A0 (fi) | 2001-06-21 |
FI20011329A FI20011329A (fi) | 2002-12-22 |
FI119955B true FI119955B (fi) | 2009-05-15 |
Family
ID=8561469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI20011329A FI119955B (fi) | 2001-06-21 | 2001-06-21 | Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa |
Country Status (5)
Country | Link |
---|---|
US (1) | US7089180B2 (fi) |
EP (1) | EP1397655A1 (fi) |
CN (1) | CN100489966C (fi) |
FI (1) | FI119955B (fi) |
WO (1) | WO2003001172A1 (fi) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US7535649B2 (en) * | 2004-03-09 | 2009-05-19 | Tang Yin S | Motionless lens systems and methods |
JP4606264B2 (ja) * | 2005-07-19 | 2011-01-05 | 三洋電機株式会社 | ノイズキャンセラ |
GB2436192B (en) * | 2006-03-14 | 2008-03-05 | Motorola Inc | Speech communication unit integrated circuit and method therefor |
JP4396683B2 (ja) * | 2006-10-02 | 2010-01-13 | カシオ計算機株式会社 | 音声符号化装置、音声符号化方法、及び、プログラム |
US20100049512A1 (en) * | 2006-12-15 | 2010-02-25 | Panasonic Corporation | Encoding device and encoding method |
TW201125376A (en) * | 2010-01-05 | 2011-07-16 | Lite On Technology Corp | Communicating module, multimedia player and transceiving system comprising the multimedia player |
ES2727462T3 (es) * | 2016-01-22 | 2019-10-16 | Fraunhofer Ges Forschung | Aparatos y procedimientos para la codificación o decodificación de una señal multicanal de audio mediante el uso de repetición de muestreo de dominio espectral |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
US5187745A (en) * | 1991-06-27 | 1993-02-16 | Motorola, Inc. | Efficient codebook search for CELP vocoders |
CA2154911C (en) * | 1994-08-02 | 2001-01-02 | Kazunori Ozawa | Speech coding device |
JP3179291B2 (ja) * | 1994-08-11 | 2001-06-25 | 日本電気株式会社 | 音声符号化装置 |
SE506379C3 (sv) * | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5809459A (en) * | 1996-05-21 | 1998-09-15 | Motorola, Inc. | Method and apparatus for speech excitation waveform coding using multiple error waveforms |
US6148282A (en) * | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
CN1252679C (zh) * | 1997-03-12 | 2006-04-19 | 三菱电机株式会社 | 声音编码装置、声音编码译码装置、以及声音编码方法 |
US5970444A (en) * | 1997-03-13 | 1999-10-19 | Nippon Telegraph And Telephone Corporation | Speech coding method |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6385576B2 (en) * | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
WO2000060579A1 (en) * | 1999-04-05 | 2000-10-12 | Hughes Electronics Corporation | A frequency domain interpolative speech codec system |
AU2001287973A1 (en) * | 2000-09-15 | 2002-03-26 | Conexant Systems, Inc. | System for improved use of pitch enhancement with subcodebooks |
-
2001
- 2001-06-21 FI FI20011329A patent/FI119955B/fi active IP Right Grant
-
2002
- 2002-06-05 WO PCT/FI2002/000482 patent/WO2003001172A1/en not_active Application Discontinuation
- 2002-06-05 CN CN02812450.2A patent/CN100489966C/zh not_active Expired - Fee Related
- 2002-06-05 EP EP02727632A patent/EP1397655A1/en not_active Withdrawn
- 2002-06-10 US US10/167,287 patent/US7089180B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CN100489966C (zh) | 2009-05-20 |
US7089180B2 (en) | 2006-08-08 |
US20030055633A1 (en) | 2003-03-20 |
WO2003001172A1 (en) | 2003-01-03 |
FI20011329A0 (fi) | 2001-06-21 |
CN1650156A (zh) | 2005-08-03 |
FI20011329A (fi) | 2002-12-22 |
EP1397655A1 (en) | 2004-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4927257B2 (ja) | 可変レートスピーチ符号化 | |
JP4824167B2 (ja) | 周期的スピーチコーディング | |
Kondoz | Digital speech: coding for low bit rate communication systems | |
US6260009B1 (en) | CELP-based to CELP-based vocoder packet translation | |
ES2360176T3 (es) | Alisamiento de discontinuidades entre tramas de habla. | |
TW497335B (en) | Method and apparatus for variable rate coding of speech | |
JPH09503874A (ja) | 減少レート、可変レートの音声分析合成を実行する方法及び装置 | |
EP1328928A2 (en) | Apparatus for bandwidth expansion of a speech signal | |
KR20030061839A (ko) | 로버스트한 음성 분류를 위한 방법 및 장치 | |
FI118704B (fi) | Menetelmä ja laite lähdekoodauksen tekemiseksi | |
JPH10207498A (ja) | マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器 | |
JP2002544551A (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
KR100656788B1 (ko) | 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더 | |
FI119955B (fi) | Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa | |
US6122611A (en) | Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise | |
JP2002509294A (ja) | 暗騒音条件下における音声符号化の方法 | |
Gersho | Speech coding | |
Sahab et al. | SPEECH CODING ALGORITHMS: LPC10, ADPCM, CELP AND VSELP | |
Gersho | Linear prediction techniques in speech coding | |
Gardner et al. | Survey of speech-coding techniques for digital cellular communication systems | |
Shikui et al. | Speech transcoding from AMR to G. 729 in excitation domain | |
Seereddy | Speech coding using multipulse excitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Patent granted |
Ref document number: 119955 Country of ref document: FI |