FI111486B

FI111486B - Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa

Info

Publication number: FI111486B
Application number: FI942761A
Authority: FI
Inventors: Luca Cellario
Original assignee: Telecom Italia Spa
Priority date: 1993-06-10
Filing date: 1994-06-10
Publication date: 2003-07-31
Also published as: US5548680A; ATE170656T1; DE69412913T2; DE628947T1; GR950300013T1; CA2124643A1; ES2065871T1; ITTO930419A0; CA2124643C; EP0628947B1; FI942761A; IT1270438B; JP3197155B2; ES2065871T3; FI942761A0; ITTO930419A1; EP0628947A1; JPH0728499A; DE69412913D1

Description

1 111486

Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa t

Esillä oleva keksintö liittyy digitaalisiin puhekoodereihin ja tarkemmin 5 se kohdistuu menetelmään ja laitteeseen, jolla estimoidaan ja luokitellaan puhesignaalin äänijakso näissä koodereissa.

Puhekoodausjärjestelmät, jotka sallivat saada hyvälaatuisen koodatun puheen alhaisella bittitiheydellä, ovat tekniikassa yhä kiinnostavampia. Tätä tarkoitusta varten käytetään usein lineaarista ennustekoodaus (LPC) -tekniikkaa, 10 joka tekniikka käyttää puheen spektriominaisuuksia ja sallii ainoastaan puheen käsittämisen kannalta tärkeän informaation koodauksen. Monet LPC-tekniik-kaan perustuvat koodausjärjestelmät suorittavat prosessoinnin aikana puhe-signaalisegmentin luokittelun, jotta erotettaisiin, onko kyseessä aktiivinen vaiko inaktiivinen puhesegmentti ja ensimmäisessä tapauksessa, vastaako se soinnil-15 lista vai soinnitonta ääntä. Tämä sallii koodausstrategioiden sovittamisen tiettyihin segmenttiominaisuuksiin. Vaihteleva koodausstrategia, missä lähetetty informaatio vaihtelee segmentistä segmenttiin, on erityisen sopiva vaihtelevan nopeuden lähetyksiin, tai kiinteän nopeuden lähetyksissä se sallii mahdolliset vähennykset lähetettävän informaation määrässä, jotta saataisiin parannettua suo-20 jausta kanavavirheitä vastaan.

Esimerkki vaihtelevan nopeuden koodausjärjestelmästä, jossa suoritetaan aktiivisten ja hiljaisten jaksojen tunnistaminen ja aktiivisten jaksojen aikana tunnistetaan vastaavat soinnilliset tai soinnittomat signaalit, jotka sitten koo-• dataan eri tavoin, on kuvattu paperissa "Variable Rate Speech Coding with onli- 25 ne segmentation and fast algebraic codes", R. Di Francesvo et alii, konferenssi ICASSP '90, 3. - 6. huhtikuuta 1990, Albuquerque (USA), paperi S4b.5.

Keksinnön mukaan saadaan menetelmä, jolla koodataan puhesignaali, jossa menetelmässä koodattava signaali jaetaan digitaalisten näytteiden kehyksiksi, jotka sisältävät saman lukumäärän näytteitä; kunkin kehyksen näyt-'·' 30 teille suoritetaan pitkän aikavälin ennusteanalyysi, jotta signaalista saataisiin erotettua parametriryhmä, joka sisältää äänijaksoa vastaavan viiveen d, ennus-tekertoimen b ja ennustevahvistuksen G, ja luokittelu, joka ilmaisee, vastaako kehys itse aktiivista vai inaktiivista puhesignaalisegmenttiä, ja aktiivisen signaa-lisegmentin tapauksessa, vastaako segmentti soinnillista vai soinnitonta ääntä, 35 kun segmenttiä pidetään soinnillisena jos sekä ennustekerroin ja ennustevahvis-tus ovat suurempia tai yhtäsuuria kuin vastaavat kynnykset; ja koodausyksiköille 2 111486 syötetään informaatiota parametreista mahdollista lisäämistä koodattuun signaalin varten, yhdessä luokittelusta kertovien parametrien kanssa joilla yksiköissä valitaan eri koodaustavat puhesegmentin ominaisuuksien mukaan; tunnettu siitä että pitkän aikavälin analyysin aikana viive estimoidaan kovarianssifunktion - 5 maksimin mukaan, painotettuna painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettu jakso on todellisen jakson monikerta, ikkunan sisällä, jonka pituus ei ole pienempi kuin itse viiveen suurin mahdollinen arvo; ja siitä että en-nustekertoimen ja vahvistuksen kynnykset ovat kuhunkin kehykseen adaptoituja kynnyksiä, jotta seurattaisiin taustakohinan kehityssuuntaa eikä puheen; adap-10 taatiota käytettäessä ainoastaan aktiivisten puhesignaalisegmenttien tapauksessa.

Kooderi menetelmän suorittamiseen sisältää välineet, joilla jaetaan puhesignaalin digitaalisten näytteiden sekvenssi kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä näytteitä; puhesignaalin ennusteanalyysiin tar-15 koitetut välineet, jotka sisältävät piirit, jotka synnyttävät parametrit, jotka edustavat lyhyen aikavälin spektriominaisuuksia ja lyhyen aikavälin ennustejäännös-signaalia, ja piirit, joilla jäännössignaalista saadaan parametrejä, jotka edustavat pitkän aikavälin spektriominaisuuksia, käsittäen pitkän aikavälin analyysin viiveen eli äänijakson d, ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G; 20 välineet apriori-luokitteluun, jotka tunnistavat, vastaako kehys aktiivisen puheen jaksoa vaiko hiljaisuutta ja vastaako aktiivisen puheen jakso soinnillista vai soinnitonta ääntä, luokitteluvälineiden sisältäessä piirit, jotka synnyttävät ensimmäisen ja toisen lipun aktiivisen puhejakson ja soinnillisen äänen signaloimiseksi vastaavasti, toisen lipun synnyttävien piirien sisältäessä välineet, joilla verrataan 25 ennustekertoimen ja vahvistuksen arvoja vastaaviin kynnyksiin ja joilla annetaan tuo lippu, kun kumpikin noista arvoista on suurempi kuin kynnykset; puhekoo-dausyksiköt, jotka synnyttävät koodatun signaalin käyttämällä ainakin joitain en-nusteanalyysivälineiden synnyttämistä parametreista, ja joita mainitut liput ohjaavat asettamaan koodattuun signaalin eri informaatiota kehyksessä olevan 30 puhesignaalin luonteen mukaan, ja on tunnettu siitä, että pitkän aikavälin ana-lyysiviiveen määrittävät piirit laskevat tuon viiveen maksimoimalla jäännös-signaalin kovarianssifunktion, kun tuo funktio lasketaan näyteikkunan sisällä, jonka pituus ei ole pienempi kuin suurin viiveelle sallittu arvo, ja sitä painotetaan painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettava maksimiarvo 35 on todellisen viiveen monikerta; ja siitä että toisen lipun synnyttävissä piireissä olevat vertailuvälineet suorittavat vertailun kehys kehykseltä vaihtelevin kynnyk- 3 111486 sin ja ovat yhteydessä kynnykset synnyttäviin välineisiin, kun vertailuvälineet ja kynnyksiä synnyttävät välineet toimivat ainoastaan ensimmäisen lipun esiintyessä.

Edellä olevat ja muut esillä olevan keksinnön piirteet tulevat selke-5 ämmiksi seuraavien liitteenä olevien piirrosten avulla, joissa - kuvio 1 on peruskaavio kooderista, jossa on keksintöä käyttävä ap-riori-luokittelu; - kuvio 2 on yksityiskohtaisempi kaavio eräistä kuvion 1 lohkoista; - kuvio 3 on kaavio ääni-ilmaisemesta; ja 10 - kuvio 4 on kaavio kuvion 3 ilmaisimen kynnyksenlaskentapiiristä.

Kuviosta 1 nähdään, että apriori-luokittelulla varustettu puhekooderi voidaan kuvata piirillä TR, joka jakaa liitoskohdassa 1 esiintyvän puhesignaalin digitaalisten näytteiden sekvenssin x(n) kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä Lf näytteitä (esim. 80 -160, joka tavanomaisella näyt-15 teistystaajuudella 8 kHz vastaa 10 - 20 ms puhetta). Kehykset viedään liitoskohdan 2 kautta ennusteanalyysiyksiköihin AS, jotka kullekin kehykselle laskevat ryhmän parametreja, jotka antavat informaatiota lyhyen aikavälin spektriominai-suuksista (liittyvät viereisten näytteiden väliseen korrelaatioon, joka saa aikaan ei-tasaisen spektriverhokäyrän) ja pitkän aikavälin spektriominaisuuksista (liitty-20 vät vierekkäisten äänijaksojen väliseen korrelaatioon, josta signaalin spektrin hienorakenne riippuu). AS vie nämä parametrit liitoskohdan 3 kautta luokittelu-yksikköön CL, joka tunnistaa sen, vastaako vallitseva kehys aktiivista vaiko inaktiivista puhetta ja aktiivisen puheen tapauksessa, vastaako vallitseva kehys *· soinnillista vai soinnitonta ääntä. Käytännössä tämä informaatio muodostuu lip- 25 puparista A, V, joka lähtee liitoskohdasta 4, jotka voivat saada arvot 1 tai 0 (esim. A=1 aktiivinen puhe, A=0 inaktiivinen puhe, ja V=1 soinnillinen ääni, V=0 soinniton ääni). Lippuja käytetään koodausyksiköiden CV ohjaukseen ja ne myös lähetetään vastaanottimeen. Tämän lisäksi, kuten myöhemmin nähdään, lippu V syötetään myös takaisin ennusteanalyysiyksikköön eräiden niiden suorit-,30 tamien toimenpiteiden jalostamiseksi.

Koodausyksiköt CV synnyttävät koodatun puhesignaalin y(n), joka lähtee liitoskohdasta 5, alkaen AS:n synnyttämistä parametreista ja lisäparametreistä, jotka edustavat informaatiota synteesisuodattimen virityksestä, joka simuloi puheen tuottavaa laitetta; kun lisäparametrit antaa virityslähde, jota kuvaa 35 lohko GE. Yleisesti ottaen eri parametrit syötetään CV:hen indeksien ji (AS:n synnyttämät parametrit) j2 (viritys) ryhmien muodossa. Nämä kaksi indeksiryh- 4 111486 mää esiintyvät liitoskohdissa 6, 7.

Yksiköt CV valitsevat lippujen A, V perusteella kaikkein sopivimman koodausstrategian ottaen myös huomioon kooderisovelluksen. Äänen luonteesta riippuen kaikki AS:n ja GE:n antama informaatio tai vain osa siitä viedään 5 koodattuun signaaliin; tietyille indekseille annetaan ennalta asetetut arvot jne. Esimerkiksi inaktiivisen puheen tapauksessa koodattu signaali sisältää hiljaisuuden kuvaavan bittikonfiguraation, esim konfiguraation, joka sallii vastaanottimen rekonstruoida niin kutsuttua "mukavuuskohinaa”, jos kooderia käytetään epäjatkuvassa lähetysjärjestelmässä; soinnittoman äänen tapauksessa signaali si-10 sältää ainoastaan lyhyen aikavälin analyysiin liittyvät parametrit eikä pitkän aikavälin analyysiin liittyviä, koska tämäntyyppisessä äänessä ei ole jaksollisuus-ominaisuuksia, ja niin edelleen. Yksiköiden CV tarkka rakenne ei ole keksinnön kannalta kiinnostava.

Kuvio 2 esittää yksityiskohtaisesti lohkojen AS ja CL rakenteen.

15 Liitoskohdassa 2 olevat näyte kehykset vastaanotetaan ylipääs- tösuodattimella FPA, jonka tehtävänä on poistaa tasakomponentti ja matalataa-juinen kohina ja näin synnyttää suodatettu signaali Xf(n), joka syötetään täysin tavanomaisiin lyhyen aikavälin analyysipiireihin ST, jotka sisältävät yksiköt, joilla lasketaan lineaariset ennustekertoimet a, (tai näihin kertoimiin liittyvät suureet), 20 ja lyhyen aikavälin ennustesuodattimeen, joka synnyttää lyhyen aikavälin ennus-tejäännössignaalin rs(n).

Kuten tavallista, piirit ST antavat kooderille CV (kuvio 1) liitoskohdan 60 kautta indeksi j(a), jotka saadaan kvantisoimalla kertoimet a, tai näitä edusta-vat muut suureet.

25 Jäännössignaali rs(n) viedään alipäästösuodattimeen FPB, joka syn nyttää suodatetun jäännössignaalin rf(n), joka syötetään pitkän aikavälin analyysipiireihin LT 1, LT2, jotka estimoivat vastaavasti äänijakson d ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G. Alipäästösuodatin tekee nämä toimenpiteet yksinkertaisemmiksi ja luotettavammiksi, kuten alaa tunteva tietää.

30 Äänijaksolla (eli pitkän aikavälin analyysiviiveellä) d on arvot välillä maksimi dH ja minimi di_, esim. 147 ja 20. Piiri LT1 estimoi jakson d suodatetun jäännössignaalin kovarianssifunktion avulla, funktion ollessa painotettu, keksinnön mukaan, sopivan ikkunan avulla, jota käsitellään myöhemmin.

Jakso d estimoidaan yleensä etsimällä suodatetun jäännöksen r<n) 35 5 111486 autokorrelaatiofunktion maksimi R(d) = Li’x drf(n+d) ri(n) (d = dL...dH) m n-0 ' ' 5 Tämä funktio arvioidaan koko kehykselle kaikille d:n arvoille. Tämä menetelmä on harvoin tehokas d:n suurille arvoille, koska (1 ):n tulojen lukumäärä vähenee d:n kasvaessa ja, jos dH > Lf/2, kaksi signaalisegmenttiä rt(n+d) ja rf(n) eivät mahdollisesti tarkoita äänijaksoa ja on vaarana, että äänijaksopulssi jää tarkastelematta. Tätä ei tapahtuisi, jos käytetään kovarianssifunktiota, joka 10 saadaan relaatiosta R (d.0)=L^1r((n-d)Tf (n) (d=dL...d^ (2)

n-O

missä suoritettavien tulojen lukumäärä on d:stä riippumaton ja kaksi 15 puhesegmenttiä rt(n-d) ja rt(n) aina sisältävät äänijakson (jos dH < Lf). Kovarianssifunktion käyttö kuitenkin sisältää suuren vaaran, että löydetty maksimiarvo on efektiivisen arvon monikerta, mistä seuraa kooderin suorituskyvyn heikentyminen. Tämä riski on paljon pienempi käytettäessä autokorrelaatiota, kiitos painotuksen, joka tulee implisiittisesti tehdyksi 20 suoritettaessa vaihteleva lukumäärä tuloja. Tämä painotus kuitenkin riippuu ainoastaan kehyksen pituudesta, jolloin ei sen määrää eikä muotoa pystytä optimoimaan, joten joko vaara säilyy tai voidaan valita oikean arvon tai oikean arvon alapuolella olevien haja-arvojen parillisia monikertoja. Ottamalla tämä huomioon, keksinnön mukaan, kovarianssi R painotetaan ikkunan w(d) avulla, 25 joka on riippumaton kehyksen pituudesta, ja painotetun funktion R w (d)=w (d) · R (d, 0) (3) maksimia etsitään d:n koko arvoväliltä. Tällä tavoin saadaan poistettua haitat, • · · 30 jotka ovat luontaisia sekä autokorrelaatiolle ja yksinkertaiselle kovarianssille: täten d:n estimointi on luotettava suurten viiveitten tapauksessa ja mahdollisuutta saada oikean viiveen monikerta hallitaan painotusfunktiolla, joka ei riipu kehyksen pituudesta ja jolla on mielivaltainen muoto, jotta pienennettäisiin tätä mahdollisuutta niin paljon kuin mahdollista.

35 Keksinnön mukainen painotusfunktio on: 6 111486 w(d)=dl°9*Kw (4) missä O < Kw < 1. Tällä funktiolla on ominaisuus 5 w(2d)/w(d) = Kw, (5) että suhteellinen painotus minkä tahansa viiveen ja sen kaksinkertaisen arvon välillä on vakio, joka on pienempi kuin 1. Pienet Kw:n arvot pienentävät mahdollisuutta saada arvoja, jotka ovat efektiivisen arvon monikertoja; toisaalta 10 liian pienet arvot voivat antaa maksimin, joka vastaa todellisen arvon murto-osaa tai haja-arvoa, ja tämän vaikutus on vielä pahempi. Näin ollen arvo Kw on kompromissi näiden kahden välillä, esim. sopivasta arvosta, jota käytetään kooderin käytännön toteutuksessa, on 0,7.

On huomattava, että jos viive dH on suurempi kuin kehyksen pituus, 15 kuten voi sattua käytettäessä melko lyhyitä kehyksiä (esim. 80 näytettä), summauksen alarajan tulee olla Lf-dH, 0:n sijasta, jotta tarkasteltaisiin ainakin yhtä äänijaksoa.

Kaavalla (3) laskettua viivettä voidaan korjata, jotta taattaisiin mahdollisimman tasainen viiveen kehityssuunta, menetelmillä, jotka ovat saman 20 kaltaisia kuin on kuvattu IT-patenttihakemuksessa nro TO 93A 000 244, jätetty 9. huhtikuuta 1993. Tämä koijaus suoritetaan, jos signaalin edellinen kehys oli soinnillinen (lippu V arvossa 1) ja jos lisälippu S oli aktiivinen, joka lisälippu signaloi puhejaksosta, jolla on tasainen kehityssuunta, ja jonka synnyttää piiri GS, joka kuvataan myöhemmin.

25 Tämän korjauksen suorittamiseksi tehdään kaavan (3) paikallisen maksimin etsintä edelliseen kehykseen liittyvän arvon d(-1) läheisyydessä ja paikallista maksimia vastaavaa arvoa käytetään, jos tämän paikallisen maksimin ja päämaksimin välinen suhde on suurempi kuin tietty kynnys. Hakuvälin määrittelevät arvot 30 di_' = max [(1-0s)d(-1), dj dH' = max [(1+0s)d(-1), dH] missä 0S on kynnys, jonka merkitys tulee selvemmäksi, kun kuvataan lipun S synnyttäminen. Tämän lisäksi haku suoritetaan vain, jos kaavalla (3) vallitsevassa kehyksessä laskettu viive d(O) on välin dV - d'H ulkopuolella.

35 Lohko GS laskee absoluuttiarvon 7 111486 |β| ldm-dro-i| m=Ld + 1....0 (β) ^m-1 suhteellisesta viiveen vaihtelusta kahden peräkkäisen kehyksen välillä tietylle lukumäärälle Ld kehyksiä, ja kussakin kehyksessä S synnyttää lipun S, jos | 0 | 5 on pienempi tai yhtäsuuri kuin kynnys 0S kaikille Ld kehyksille. Ld:n ja 0s:n arvot riippuvat Lf:stä. Käytännön toteutukset käyttävät arvoja Ld = 1 tai Ld = 2 vastaavasti 160:n ja 80:n näytteen kehyksille; vastaavat 0s:n arvot olivat 0,15 ja 0,1.

LT1 lähettää CV.IIe (kuvio 1), liitoskohdan 61 kautta, indeksin j(d) 10 (käytännössä d-di_+1) ja lähettää arvon d luokittelupiireille CL ja piireihin LT2, jotka laskevat pitkän aikavälin ennustekertoimen b ja vahvistuksen G. Nämä parametrit saadaan vastaavasti suhteista: (7) 15 R(d·^ R(0,0) w missä R on relaation (2) antama kovarianssifunktio. Edellä tehdyt 20 havainnot R:n lausekkeessa esiintyvän summauksen alarajan suhteen pätevät myös relaatioihin (7), (8). Vahvistus G antaa viitteen pitkän aikavälin ennusteen tehokkuudesta ja b on tekijä, jolla menneisiin jaksoihin liittyvää viritystä täytyy painottaa koodausvaiheen aikana. LT2 myös muuntaa (8):n antaman arvon G ·· vastaavaksi logaritmiseksi arvoksi G(dB) = 10!ogioG ja lähettää arvot b ja G(dB) 25 luokittelupiireihin CL (liitoskohtien 32, 33) kautta ja lähettää CVrhen (kuvio 1) liitoskohdan 62 kautta indeksi j(b), joka saatiin b:n kvantisoinnin kautta. Liitoskohdat 60, 61, 62 kuviossa 2 muodostavat yhdessä kuvion 1 liitoskohdan 6.

Liitteessä on C-kielinen listaus LT1:n, GS:n, LT2:n suorittamista toimenpiteistä. Tästä listauksesta lähtien alaa tuntevalla ei ole vaikeuksia :" 30 suunnitella tai ohjelmoida kuvattuja toimintoja suorittavia laitteita.

Luokittelupiirit muodostuvat kahden lohkon RA, RV sarjasta. Ensimmäisen tehtävänä on tunnistaa, vastaako kehys aktiivista puhejaksoa ja synnyttää sen vuoksi lippu A, joka viedään liitoskohtaan 40. Lohko RA voi olla mikä tahansa useasta alalla tunnetusta tyypistä. Valinta riippuu myös 35 puhekooderin CV laadusta. Esimerkiksi, lohko RA voi oleellisesti toimia kuten suosituksessa CEPT-CCH-GSM 06.32 kuvataan, ja siten se voi vastaanottaa 8 111486 ST:stä ja LT1:stä, liitoskohtien 30, 31 kautta informaatiota, joka vastaavasti liittyy lineaarisiin ennustekertoimiin ja äänijaksoon. Vaihtoehtoisesti RA voi toimia kuten jo mainittu R. Oi Francescon et alii paperissa.

Lohko RV, joka toimii lipun A ollessa arvossa 1, vertaa LT2:sta vas-5 taanotettuja arvoja b ja G(dB) vastaaviin kynnyksiin. Esillä olevan keksinnön mukaan kynnykset bs, Gs ovat adaptiivisia kynnyksiä, joiden arvo on arvojen b ja G(dB) funktio. Adaptiivisten kynnysten käyttö mahdollistaa suuresti lisätä kestävyyttä taustakohinaa vastaan. Tämä on perusteellisen tärkeää erityisesti liikkuvien tietoliikennejärjestelmien sovelluksissa, ja se parantaa myös riippumatto-10 muutta puhujasta.

Adaptiiviset kynnykset lasketaan kussakin kehyksessä seuraavalla tavalla. Ensiksikin b:n, G(dB):n todelliset arvot skaalataan vastaavilla tekijöillä Kb, KG, jolloin saadaan arvot b' = Kb.b, G' = KG.G(dB). Sopivat arvot kahdelle vakiolle Kb, KG ovat vastaavasti 0,8 ja 0,6. Arvot b' ja G' suodatatetaan sitten 15 alipäästösuodattimen läpi, jotta saataisiin vallitsevaan kehykseen liittyvät kynnysarvot bs(0), Gs(0), relaatioiden bs(0) = (1-a)b' + abs(-1) (9')

Gs(0) = (1-a)G’ + aG(-1) (9") mukaan, missä bs(-1) ja Gs(-1) ovat edelliseen kehykseen liittyvät arvot ja a on 20 vakio, joka on pienempi kuin 1 mutta hyvin lähellä arvoa 1. Alipäästösuodatuk-sen päämääränä, kertoimen ollessa hyvin lähellä arvoa 1, on saada kynnysa-daptaatio seuraamaan taustakohinan kehityssuuntaa, joka on yleensä verrattain vakaa myös pitkien jaksojen tapauksessa, eikä puheen kehityssuuntaa, joka on tyypillisesti epävakaa. Esimerkiksi, kerroinarvo a valitaan vastaamaan muuta-25 man sekunnin aikavakiota (esim. 5) ja näin ollen muutaman sadan kehyksen mittaista aikavakiota.

Arvot bs(0) ja Gs(0) leikataan sitten olemaan välillä bs(L) - bs(H) ja Gs(L) - Gs(H). Tyypillisä arvoja kynnyksille ovat 0,3 ja 0,5 b:lle ja 1 dB ja 2 dB G(dB):lle. Lähtösignaalin leikkaus mahdollistaa välttää liian hitaita paluita rajati-:1 30 lanteen tapauksessa, esim. sävelen koodauksen jälkeen, kun tulosignaaliarvot ovat hyvin korkeita. Kynnysarvot ovat ylärajojen vieressä tai ovat ylärajoilla, kun taustakohinaa ei ole ja kohinatason noustessa ne pyrkivät alarajoille.

Kuvio 3 esittää soinnillisuusilmaisimen RV rakenteen. Tämä ilmaisin muodostuu oleellisesti komparaattoriparista CM1, CM2, jotka voivat vastaanot-35 taa, lipun A:n ollessa 1, LT2:sta b:n ja G(dB):n arvot, verrata niitä kehys kehykseltä laskettuihin kynnyksiin, jotka vastaavat kynnyksen synnyttävät piirit CS1, 9 111486 CS2 ovat vieneet langoille CS1, CS2, ja antaa lähdöissä 36, 37 signaali, joka ilmaisee, että syöttöarvo on suurempi tai yhtäsuuri kuin kynnykset. AND-veräjät AN1 ja AN2, joilla on yhdet tulot vastaavasti kytkettyinä lankoihin 32 ja 33, ja toiset tulot kytketty lankaan 40, käynnistävät piirit RV vain aktiivisen puheen ta-5 pauksessa. Lippu V voidaan saada lähtösignaalina AND-veräjästä AN3, joka vastaanottaa kahteen tuloonsa kahden komparaattorin antamat signaalit.

Kuvio 4 esittää kynnyksen bs synnyttävän piirin CS1 rakenteen; CS2:n rakenne on samanlainen.

Piiri sisältää ensimmäisen kertojan M1, joka vastaanottaa langoilla 10 32' olevan kertoimen b, skaalaa sen tekijällä Kb ja synnyttää arvon b'. Tämä syötetään positiiviseen tuloon vähentäjässä S1, joka vastaanottaa negatiiviseen tuloonsa lähtösignaalin toisesta kertojasta M2, joka kertoo arvon b' vakiolla a.

S1:n lähtösignaali viedään summaajaan S2, joka vastaanottaa toiseen tuloon lähtösignaalin kolmannesta kertojasta M3, joka kertoo keskenään vakion a ja 15 kynnyksen bs(-1), joka liittyy edelliseen kehykseen ja saadaan viivästämällä viive-elimellä D1 kehyksen pituutta vastaavan ajan verran piirin lähdössä 36 olevaa signaalia. S2:n lähdössä oleva arvo, joka on (9'):n antama arvo, syötetään sitten leikkauspiiriin CT, joka sitten, jos tarpeen, leikkaa arvon bs(0) siten, että se pysyy annetun alueen sisällä ja antaa leikatun arvon lähdössä 36. Näin ollen 20 leikattua arvoa käytetään seuraaviin kehyksiin liittyvissä suodatuksissa.

On selvää, että mitä on kuvattu, on annettu ainoastaan ei-rajoittavana esimerkkinä ja että muunnelmat ja modifikaatiot ovat mahdollisia poikkeamatta keksinnön hengestä.

• 4 1 <.

« ‘ 10 111486

Liite /1 Haetaan pitkän aikavälin ennusteviivettä: 1/ 5

Rwrfdmax=-DBL_MAX; for (d_=dL; d_<=dH; d_++) (

Rrfd0=0.; •JO for (n=Lf-dH; n<=Lf-l; n++)

RrfdO+=rf[n-d_]1rf[n];

Rwrf[d_]=w_[dJ1RrfdO; •J5 jf (Rwrf[d_J>Rwrfdmax) ( d[0]=d_;

Rwrfdmax=Rwrf(d_]; } 20 ) f1 Haetaan toisen kerran pitkän aikavälin ennusteviivettä edellisen arvon ympäriltä: 1/ 25 dL_=sround((l.-absTHHTAd(hr)1d[-1]); dH_=sround((l.+absTHETAdthr)1d[-l]); if (dL_<dL) dL =dL; • · l —.7 else if (dH_>dH) dH_=dH; if (smoothing[-l J&&voicing[-l]&&(d[0]<dL_ld[0]>dH_)) ( 35 Rwrfdmax_=-DBL_MAX; for (d_=dL_;d_<=dH„;d_++) if (Rwrf[d_]>Rwrfdmax_) { 11 111486 d_=d_;

Rwrfdmax_=Rwrf[d_]; } 5 if (Rwrfdmax_yRwrfdmax>=KRwrfdthr) d[0]=d_; ) /* Tasauspäätös: */ 10 smoothing[0] = l; for (m=-Lds+l; m<=0; m++) if (fabs(d[m]-d[m-l])/d[m-l]>absTHETAdthr) smoothing[0]=0; 15 /* Pitkän aikavälin ennustekertoimen ja vahvistuksen laskenta */

Rrfdd=Rrfd0=Rrf00=0.; for (n=Lf-dH; n<=Lf-l; n++) 20 t

Rrfdd+=rf[n-d[0]]*rf[n-d[0]];

Rrfd0+=rf[n-d[0]]*rf[n];

Rrf00+=rf[nj*rf[n]; ; } 25 b=(Rrfdd>=epsilon)?RrfdO/Rrfdd:0.;

GdB=(Rrfdd>=epsilon&&Rrf00>=epsilon)?-10.*logl0(l.- b*Rrfd0/Rrf00):0.;

Claims

12 111486

1. Menetelmä puhesignaalin koodaukseen, jossa koodattava signaali jaetaan digitaalisten näytteiden kehyksiksi, jotka sisältävät saman lukumäärän 5 näytteitä; kunkin kehyksen näytteille suoritetaan pitkän aikavälin ennusteana-lyysi, jotta signaalista saataisiin erotettua parametriryhmä, joka sisältää äänijak-soa vastaavan viiveen d, ennustekertoimen b ja ennustevahvistuksen G, ja luokittelu, joka ilmaisee, vastaako kehys itse aktiivista vai inaktiivista puhesignaa-lisegmenttiä, ja aktiivisen signaalisegmentin tapauksessa, vastaako segmentti 10 soinnillista vai soinnitonta ääntä, kun segmenttiä pidetään soinnillisena, jos sekä ennustekerroin ja ennustevahvistus ovat suurempia tai yhtäsuuria kuin vastaavat kynnykset; ja koodausyksiköilie annetaan informaatiota kyseisistä parametreista mahdollista lisäämistä koodattuun signaaliin varten yhdessä luokittelusta kertovien parametrien kanssa, joilla yksiköissä valitaan eri koodaustavat 15 puhesegmentin ominaisuuksien mukaan; tunnettu siitä, että pitkän aikavälin analyysin aikana viive estimoidaan kovarianssifunktion maksimin mukaan, painotettuna painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettu jakso on todellisen jakson monikerta, ikkunan sisällä, jonka pituus ei ole pienempi kuin itse viiveen suurin mahdollinen arvo; ja siitä, että ennustekertoimen 20 ja vahvistuksen kynnykset ovat kuhunkin kehykseen adaptoituja kynnyksiä, jotta seurattaisiin taustakohinan kehityssuuntaa eikä puheen; adaptaatiota käytettäessä ainoastaan aktiivisten puhesignaalisegmenttien tapauksessa.

2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että painotusfunktio kullekin sallitulle viivearvolle on funktio, joka on tyyppiä w(d) * 25 = dlog2Kw, missä d on viive ja Kw on positiivinen vakio pienempi kuin 1.

3. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että kovarianssifunktio lasketaan koko kehykselle, jos viiveen suurin sallittu arvo on pienempi kuin kehyksen pituus, tai näyteikkunalle, jonka pituus on yhtä suuri kuin maksimiviive ja joka sisältää kehyksen, jos maksimiviive on suurempi kuin ... 30 kehyksen pituus.

4. Patenttivaatimuksen 3 mukainen menetelmä, tunnettu siitä, että kussakin kehyksessä synnytetään äänijakson tasausta ilmaiseva signaali, ja pitkän aikavälin analyysin aikana, jos edellisessä kehyksessä oleva signaali oli soinnillinen ja suoritettiin äänijakson tasaus, suoritetaan myös painotetun kova- 35 rianssifunktion toisen maksimin etsintä edellisessä kehyksessä löydetyn arvon ympäristössä, ja tätä toista maksimia vastaavaa arvoa käytetään viiveenä, jos 13 111486 se poikkeaa ennalta asetettua määrää pienemmällä määrällä vallitsevan kehyksen kovarianssifunktion maksimista.

5. Patenttivaatimuksen 4 mukainen menetelmä, tunnettu siitä, että äänijakson tasausta ilmaisevan signaalin synnyttämiseksi lasketaan kahden 5 peräkkäisen kehyksen välinen viiveen vaihtelu ennalta asetetulle lukumäärälle vallitsevaa kehystä edeltäviä kehyksiä; näiden vaihtelujen absoluuttiarvot estimoidaan; näin saatuja absoluuttiarvoja verrataan viivekynnykseeen ja ilmaiseva signaali synnytetään, jos absoluuttiarvot ovat kaikki alempia kuin viivekynnys.

6. Patenttivaatimuksen 4 tai 5 mukainen menetelmä, tunnettu 10 siitä, että ympäristön leveys on viivekynnyksen funktio.

7. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että pitkän aikavälin ennustekertoimen ja vahvistuksen kynnyksien laskemiseksi kehyksessä, ennustekertoimen ja vahvistuksen arvot skaalataan vastaavilla ennalta asetetuilla tekijöillä; edellisessä kehyksessä saadut kynnykset ja sekä ker- 15 toimen että vahvistuksen skaalatut arvot alipäästösuodatetaan ensimmäisellä suodatuskertoimella, joka saa aikaan kehyksen kestoon verraten hyvin pitkän aikavakion, ja vastaavasti toisella suodatuskertoimella, joka on ensimmäisen 1-komplementti; ja että ennustekertoimen ja vahvistuksen skaalatut ja suodatetut arvot summataan vastaavaan suodatettuun kynnykseen, summauksesta saata-20 van arvon ollessa päivitetty kynnysarvo.

8. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että summauksesta saatavat kynnysarvot leikataan maksimiarvon ja minimiarvon mukaan, ja siitä, että seuraavassa kehyksessä näin leikatut arvot alipäästösuodatetaan. ··' 25 9. Laite puhesignaalin digitaaliseen koodaukseen, sisältää välineet (TR), joilla jaetaan puhesignaalin digitaalisten näytteiden sekvenssi kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä näytteitä; puhesignaalin en-nusteanalyysiin tarkoitetut välineet (AS), jotka sisältävät piirit (ST), jotka synnyttävät parametrit, jotka edustavat lyhyen aikavälin spektriominaisuuksia ja lyhyen 30 aikavälin ennustejäännössignaalia, ja piirit (LT1, LT2), joilla jäännössignaalista saadaan parametreja, jotka edustavat pitkän aikavälin spektriominaisuuksia, käsittäen pitkän aikavälin analyysin viiveen eli äänijakson d, ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G; välineet apriori luokitteluun (CL), jotka tunnistavat, vastaako kehys aktiivisen puheen jaksoa vaiko hiljaisuutta ja vas-35 taako aktiivisen puheen jakso soinnillista vai soinnitonta ääntä, luokitteluvälineiden sisältäessä piirit (RA, RV), jotka synnyttävät ensimmäisen ja toisen lipun (A, 111486 V) aktiivisen puhejakson ja soinnillisen äänen signaloimiseksi vastaavasti, toisen lipun synnyttävien piirien (RV) sisältäessä välineet (CM1, CM2), joilla verrataan ennustekertoimen ja vahvistuksen arvoja vastaaviin kynnyksiin ja joilla annetaan tuo lippu, kun kumpikin noista arvoista on suurempi kuin kynnykset; puhekoo-5 dausyksiköt (CV), jotka synnyttävät koodatun signaalin käyttämällä ainakin joitain ennusteanalyysivälineiden synnyttämistä parametreista, ja joita mainitut liput (A, V) ohjaavat asettamaan koodattuun signaalin eri informaatiota kehyksessä olevan puhesignaalin luonteen mukaan, tunnettu siitä, että pitkän aikavälin analyysiviiveen määrittävät piirit (LT1) laskevat tuon viiveen maksimoimalla 10 jäännössignaalin kovarianssifunktion, kun tuo funktio lasketaan näyteikkunan sisällä, jonka pituus ei ole pienempi kuin suurin viiveelle sallittu arvo, ja sitä painotetaan painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettava maksimiarvo on todellisen viiveen monikerta; ja siitä että toisen lipun (V) synnyttävissä piireissä (RV) olevat vertailuvälineet (CM1, CM2) suorittavat vertailun 15 kehys kehykseltä vaihtelevin kynnyksin ja ovat yhteydessä kynnykset synnyttäviin välineisiin (CS1, CS2), kun vertailuvälineet ja kynnyksiä synnyttävät välineet toimivat ainoastaan ensimmäisen lipun esiintyessä.

10. Patenttivaatimuksen 9 mukainen laite, tunnettu siitä, että painotusfunktio kullekin sallitulle viivearvolle on funktio joka on tyyppiä w(d) = 20 dl092Kw, missä d on viive ja Kw on positiivinen vakio pienempi kuin 1.

11. Patenttivaatimusten 9 ja 10 mukainen laite, tunnettu siitä, että pitkän aikavälin analyysiviiveen laskevat piirit (LT1) ovat yhteydessä välineisiin (GS), joilla tunnistetaan kehyssekvenssi, jossa on viiveen tasaus, jotka välineet synnyttävät ja antavat piireille (LT1) kolmannen lipun (S), jos kyseisessä ·· 25 kehyssekvenssissä peräkkäisten kehysten välisen suhteellisen viiveen vaihtelun absoluuttiarvo on aina pienempi kuin ennalta asetettu viivekynnys.

12. Patenttivaatimuksen 11 mukainen laite, tunnettu siitä, että viiveen laskevat piirit (LT1) suorittavat kehyksessä lasketun viivearvon korjauksen, jos edellisessä kehyksessä annettiin toinen ja kolmas lippu (V, S), ja anta- 30 vat käytettäväksi arvoksi sen, joka vastaa painotetun kovarianssifunktion toista maksimia edellisessä kehyksessä lasketun viivearvon ympäristössä, jos tämä maksimi on suurempi kuin ennalta määrätty murto-osa päämaksimista.

13. Patenttivaatimusten 9 ja 10 mukainen laite, tunnettu siitä, että ennustekertoimen ja vahvistuksen kynnykset synnyttävät piirit (CS1, CS2) 35 sisältävät: 15 111486 - ensimmäisen kertojan (M1), jolla skaalataan kerroin tai vahvistus vastaavalla tekijällä; - alipäästösuodattimen (S1, M2, D1, M3), jolla suodatetaan edelliselle kehykselle laskettu kynnys ja skaalattu arvo vastaavasti ensimmäisen suodatus- 5 kertoimen mukaan, joka vastaa arvoltaan kehyksen pituutta paljon suurempaa aikavakiota, ja toisen kertoimen mukaan, joka on ensimmäisen 1 :n komplementti; - summaajan (S2), joka antaa vallitsevan kynnysarvon suodatettujen signaalien summana; 10. leikkauspiirin (CT), jolla kynnysarvo pidetään ennalta asetetun arvo- välin sisällä. « 16 111486