FI111486B - Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa - Google Patents

Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa Download PDF

Info

Publication number
FI111486B
FI111486B FI942761A FI942761A FI111486B FI 111486 B FI111486 B FI 111486B FI 942761 A FI942761 A FI 942761A FI 942761 A FI942761 A FI 942761A FI 111486 B FI111486 B FI 111486B
Authority
FI
Finland
Prior art keywords
delay
frame
signal
value
threshold
Prior art date
Application number
FI942761A
Other languages
English (en)
Swedish (sv)
Other versions
FI942761A (fi
FI942761A0 (fi
Inventor
Luca Cellario
Original Assignee
Telecom Italia Spa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia Spa filed Critical Telecom Italia Spa
Publication of FI942761A0 publication Critical patent/FI942761A0/fi
Publication of FI942761A publication Critical patent/FI942761A/fi
Application granted granted Critical
Publication of FI111486B publication Critical patent/FI111486B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Description

1 111486
Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa t
Esillä oleva keksintö liittyy digitaalisiin puhekoodereihin ja tarkemmin 5 se kohdistuu menetelmään ja laitteeseen, jolla estimoidaan ja luokitellaan puhesignaalin äänijakso näissä koodereissa.
Puhekoodausjärjestelmät, jotka sallivat saada hyvälaatuisen koodatun puheen alhaisella bittitiheydellä, ovat tekniikassa yhä kiinnostavampia. Tätä tarkoitusta varten käytetään usein lineaarista ennustekoodaus (LPC) -tekniikkaa, 10 joka tekniikka käyttää puheen spektriominaisuuksia ja sallii ainoastaan puheen käsittämisen kannalta tärkeän informaation koodauksen. Monet LPC-tekniik-kaan perustuvat koodausjärjestelmät suorittavat prosessoinnin aikana puhe-signaalisegmentin luokittelun, jotta erotettaisiin, onko kyseessä aktiivinen vaiko inaktiivinen puhesegmentti ja ensimmäisessä tapauksessa, vastaako se soinnil-15 lista vai soinnitonta ääntä. Tämä sallii koodausstrategioiden sovittamisen tiettyihin segmenttiominaisuuksiin. Vaihteleva koodausstrategia, missä lähetetty informaatio vaihtelee segmentistä segmenttiin, on erityisen sopiva vaihtelevan nopeuden lähetyksiin, tai kiinteän nopeuden lähetyksissä se sallii mahdolliset vähennykset lähetettävän informaation määrässä, jotta saataisiin parannettua suo-20 jausta kanavavirheitä vastaan.
Esimerkki vaihtelevan nopeuden koodausjärjestelmästä, jossa suoritetaan aktiivisten ja hiljaisten jaksojen tunnistaminen ja aktiivisten jaksojen aikana tunnistetaan vastaavat soinnilliset tai soinnittomat signaalit, jotka sitten koo-• dataan eri tavoin, on kuvattu paperissa "Variable Rate Speech Coding with onli- 25 ne segmentation and fast algebraic codes", R. Di Francesvo et alii, konferenssi ICASSP '90, 3. - 6. huhtikuuta 1990, Albuquerque (USA), paperi S4b.5.
Keksinnön mukaan saadaan menetelmä, jolla koodataan puhesignaali, jossa menetelmässä koodattava signaali jaetaan digitaalisten näytteiden kehyksiksi, jotka sisältävät saman lukumäärän näytteitä; kunkin kehyksen näyt-'·' 30 teille suoritetaan pitkän aikavälin ennusteanalyysi, jotta signaalista saataisiin erotettua parametriryhmä, joka sisältää äänijaksoa vastaavan viiveen d, ennus-tekertoimen b ja ennustevahvistuksen G, ja luokittelu, joka ilmaisee, vastaako kehys itse aktiivista vai inaktiivista puhesignaalisegmenttiä, ja aktiivisen signaa-lisegmentin tapauksessa, vastaako segmentti soinnillista vai soinnitonta ääntä, 35 kun segmenttiä pidetään soinnillisena jos sekä ennustekerroin ja ennustevahvis-tus ovat suurempia tai yhtäsuuria kuin vastaavat kynnykset; ja koodausyksiköille 2 111486 syötetään informaatiota parametreista mahdollista lisäämistä koodattuun signaalin varten, yhdessä luokittelusta kertovien parametrien kanssa joilla yksiköissä valitaan eri koodaustavat puhesegmentin ominaisuuksien mukaan; tunnettu siitä että pitkän aikavälin analyysin aikana viive estimoidaan kovarianssifunktion - 5 maksimin mukaan, painotettuna painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettu jakso on todellisen jakson monikerta, ikkunan sisällä, jonka pituus ei ole pienempi kuin itse viiveen suurin mahdollinen arvo; ja siitä että en-nustekertoimen ja vahvistuksen kynnykset ovat kuhunkin kehykseen adaptoituja kynnyksiä, jotta seurattaisiin taustakohinan kehityssuuntaa eikä puheen; adap-10 taatiota käytettäessä ainoastaan aktiivisten puhesignaalisegmenttien tapauksessa.
Kooderi menetelmän suorittamiseen sisältää välineet, joilla jaetaan puhesignaalin digitaalisten näytteiden sekvenssi kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä näytteitä; puhesignaalin ennusteanalyysiin tar-15 koitetut välineet, jotka sisältävät piirit, jotka synnyttävät parametrit, jotka edustavat lyhyen aikavälin spektriominaisuuksia ja lyhyen aikavälin ennustejäännös-signaalia, ja piirit, joilla jäännössignaalista saadaan parametrejä, jotka edustavat pitkän aikavälin spektriominaisuuksia, käsittäen pitkän aikavälin analyysin viiveen eli äänijakson d, ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G; 20 välineet apriori-luokitteluun, jotka tunnistavat, vastaako kehys aktiivisen puheen jaksoa vaiko hiljaisuutta ja vastaako aktiivisen puheen jakso soinnillista vai soinnitonta ääntä, luokitteluvälineiden sisältäessä piirit, jotka synnyttävät ensimmäisen ja toisen lipun aktiivisen puhejakson ja soinnillisen äänen signaloimiseksi vastaavasti, toisen lipun synnyttävien piirien sisältäessä välineet, joilla verrataan 25 ennustekertoimen ja vahvistuksen arvoja vastaaviin kynnyksiin ja joilla annetaan tuo lippu, kun kumpikin noista arvoista on suurempi kuin kynnykset; puhekoo-dausyksiköt, jotka synnyttävät koodatun signaalin käyttämällä ainakin joitain en-nusteanalyysivälineiden synnyttämistä parametreista, ja joita mainitut liput ohjaavat asettamaan koodattuun signaalin eri informaatiota kehyksessä olevan 30 puhesignaalin luonteen mukaan, ja on tunnettu siitä, että pitkän aikavälin ana-lyysiviiveen määrittävät piirit laskevat tuon viiveen maksimoimalla jäännös-signaalin kovarianssifunktion, kun tuo funktio lasketaan näyteikkunan sisällä, jonka pituus ei ole pienempi kuin suurin viiveelle sallittu arvo, ja sitä painotetaan painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettava maksimiarvo 35 on todellisen viiveen monikerta; ja siitä että toisen lipun synnyttävissä piireissä olevat vertailuvälineet suorittavat vertailun kehys kehykseltä vaihtelevin kynnyk- 3 111486 sin ja ovat yhteydessä kynnykset synnyttäviin välineisiin, kun vertailuvälineet ja kynnyksiä synnyttävät välineet toimivat ainoastaan ensimmäisen lipun esiintyessä.
Edellä olevat ja muut esillä olevan keksinnön piirteet tulevat selke-5 ämmiksi seuraavien liitteenä olevien piirrosten avulla, joissa - kuvio 1 on peruskaavio kooderista, jossa on keksintöä käyttävä ap-riori-luokittelu; - kuvio 2 on yksityiskohtaisempi kaavio eräistä kuvion 1 lohkoista; - kuvio 3 on kaavio ääni-ilmaisemesta; ja 10 - kuvio 4 on kaavio kuvion 3 ilmaisimen kynnyksenlaskentapiiristä.
Kuviosta 1 nähdään, että apriori-luokittelulla varustettu puhekooderi voidaan kuvata piirillä TR, joka jakaa liitoskohdassa 1 esiintyvän puhesignaalin digitaalisten näytteiden sekvenssin x(n) kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä Lf näytteitä (esim. 80 -160, joka tavanomaisella näyt-15 teistystaajuudella 8 kHz vastaa 10 - 20 ms puhetta). Kehykset viedään liitoskohdan 2 kautta ennusteanalyysiyksiköihin AS, jotka kullekin kehykselle laskevat ryhmän parametreja, jotka antavat informaatiota lyhyen aikavälin spektriominai-suuksista (liittyvät viereisten näytteiden väliseen korrelaatioon, joka saa aikaan ei-tasaisen spektriverhokäyrän) ja pitkän aikavälin spektriominaisuuksista (liitty-20 vät vierekkäisten äänijaksojen väliseen korrelaatioon, josta signaalin spektrin hienorakenne riippuu). AS vie nämä parametrit liitoskohdan 3 kautta luokittelu-yksikköön CL, joka tunnistaa sen, vastaako vallitseva kehys aktiivista vaiko inaktiivista puhetta ja aktiivisen puheen tapauksessa, vastaako vallitseva kehys *· soinnillista vai soinnitonta ääntä. Käytännössä tämä informaatio muodostuu lip- 25 puparista A, V, joka lähtee liitoskohdasta 4, jotka voivat saada arvot 1 tai 0 (esim. A=1 aktiivinen puhe, A=0 inaktiivinen puhe, ja V=1 soinnillinen ääni, V=0 soinniton ääni). Lippuja käytetään koodausyksiköiden CV ohjaukseen ja ne myös lähetetään vastaanottimeen. Tämän lisäksi, kuten myöhemmin nähdään, lippu V syötetään myös takaisin ennusteanalyysiyksikköön eräiden niiden suorit-,30 tamien toimenpiteiden jalostamiseksi.
Koodausyksiköt CV synnyttävät koodatun puhesignaalin y(n), joka lähtee liitoskohdasta 5, alkaen AS:n synnyttämistä parametreista ja lisäparametreistä, jotka edustavat informaatiota synteesisuodattimen virityksestä, joka simuloi puheen tuottavaa laitetta; kun lisäparametrit antaa virityslähde, jota kuvaa 35 lohko GE. Yleisesti ottaen eri parametrit syötetään CV:hen indeksien ji (AS:n synnyttämät parametrit) j2 (viritys) ryhmien muodossa. Nämä kaksi indeksiryh- 4 111486 mää esiintyvät liitoskohdissa 6, 7.
Yksiköt CV valitsevat lippujen A, V perusteella kaikkein sopivimman koodausstrategian ottaen myös huomioon kooderisovelluksen. Äänen luonteesta riippuen kaikki AS:n ja GE:n antama informaatio tai vain osa siitä viedään 5 koodattuun signaaliin; tietyille indekseille annetaan ennalta asetetut arvot jne. Esimerkiksi inaktiivisen puheen tapauksessa koodattu signaali sisältää hiljaisuuden kuvaavan bittikonfiguraation, esim konfiguraation, joka sallii vastaanottimen rekonstruoida niin kutsuttua "mukavuuskohinaa”, jos kooderia käytetään epäjatkuvassa lähetysjärjestelmässä; soinnittoman äänen tapauksessa signaali si-10 sältää ainoastaan lyhyen aikavälin analyysiin liittyvät parametrit eikä pitkän aikavälin analyysiin liittyviä, koska tämäntyyppisessä äänessä ei ole jaksollisuus-ominaisuuksia, ja niin edelleen. Yksiköiden CV tarkka rakenne ei ole keksinnön kannalta kiinnostava.
Kuvio 2 esittää yksityiskohtaisesti lohkojen AS ja CL rakenteen.
15 Liitoskohdassa 2 olevat näyte kehykset vastaanotetaan ylipääs- tösuodattimella FPA, jonka tehtävänä on poistaa tasakomponentti ja matalataa-juinen kohina ja näin synnyttää suodatettu signaali Xf(n), joka syötetään täysin tavanomaisiin lyhyen aikavälin analyysipiireihin ST, jotka sisältävät yksiköt, joilla lasketaan lineaariset ennustekertoimet a, (tai näihin kertoimiin liittyvät suureet), 20 ja lyhyen aikavälin ennustesuodattimeen, joka synnyttää lyhyen aikavälin ennus-tejäännössignaalin rs(n).
Kuten tavallista, piirit ST antavat kooderille CV (kuvio 1) liitoskohdan 60 kautta indeksi j(a), jotka saadaan kvantisoimalla kertoimet a, tai näitä edusta-vat muut suureet.
25 Jäännössignaali rs(n) viedään alipäästösuodattimeen FPB, joka syn nyttää suodatetun jäännössignaalin rf(n), joka syötetään pitkän aikavälin analyysipiireihin LT 1, LT2, jotka estimoivat vastaavasti äänijakson d ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G. Alipäästösuodatin tekee nämä toimenpiteet yksinkertaisemmiksi ja luotettavammiksi, kuten alaa tunteva tietää.
30 Äänijaksolla (eli pitkän aikavälin analyysiviiveellä) d on arvot välillä maksimi dH ja minimi di_, esim. 147 ja 20. Piiri LT1 estimoi jakson d suodatetun jäännössignaalin kovarianssifunktion avulla, funktion ollessa painotettu, keksinnön mukaan, sopivan ikkunan avulla, jota käsitellään myöhemmin.
Jakso d estimoidaan yleensä etsimällä suodatetun jäännöksen r<n) 35 5 111486 autokorrelaatiofunktion maksimi R(d) = Li’x drf(n+d) ri(n) (d = dL...dH) m n-0 ' ' 5 Tämä funktio arvioidaan koko kehykselle kaikille d:n arvoille. Tämä menetelmä on harvoin tehokas d:n suurille arvoille, koska (1 ):n tulojen lukumäärä vähenee d:n kasvaessa ja, jos dH > Lf/2, kaksi signaalisegmenttiä rt(n+d) ja rf(n) eivät mahdollisesti tarkoita äänijaksoa ja on vaarana, että äänijaksopulssi jää tarkastelematta. Tätä ei tapahtuisi, jos käytetään kovarianssifunktiota, joka 10 saadaan relaatiosta R (d.0)=L^1r((n-d)Tf (n) (d=dL...d^ (2)
n-O
missä suoritettavien tulojen lukumäärä on d:stä riippumaton ja kaksi 15 puhesegmenttiä rt(n-d) ja rt(n) aina sisältävät äänijakson (jos dH < Lf). Kovarianssifunktion käyttö kuitenkin sisältää suuren vaaran, että löydetty maksimiarvo on efektiivisen arvon monikerta, mistä seuraa kooderin suorituskyvyn heikentyminen. Tämä riski on paljon pienempi käytettäessä autokorrelaatiota, kiitos painotuksen, joka tulee implisiittisesti tehdyksi 20 suoritettaessa vaihteleva lukumäärä tuloja. Tämä painotus kuitenkin riippuu ainoastaan kehyksen pituudesta, jolloin ei sen määrää eikä muotoa pystytä optimoimaan, joten joko vaara säilyy tai voidaan valita oikean arvon tai oikean arvon alapuolella olevien haja-arvojen parillisia monikertoja. Ottamalla tämä huomioon, keksinnön mukaan, kovarianssi R painotetaan ikkunan w(d) avulla, 25 joka on riippumaton kehyksen pituudesta, ja painotetun funktion R w (d)=w (d) · R (d, 0) (3) maksimia etsitään d:n koko arvoväliltä. Tällä tavoin saadaan poistettua haitat, • · · 30 jotka ovat luontaisia sekä autokorrelaatiolle ja yksinkertaiselle kovarianssille: täten d:n estimointi on luotettava suurten viiveitten tapauksessa ja mahdollisuutta saada oikean viiveen monikerta hallitaan painotusfunktiolla, joka ei riipu kehyksen pituudesta ja jolla on mielivaltainen muoto, jotta pienennettäisiin tätä mahdollisuutta niin paljon kuin mahdollista.
35 Keksinnön mukainen painotusfunktio on: 6 111486 w(d)=dl°9*Kw (4) missä O < Kw < 1. Tällä funktiolla on ominaisuus 5 w(2d)/w(d) = Kw, (5) että suhteellinen painotus minkä tahansa viiveen ja sen kaksinkertaisen arvon välillä on vakio, joka on pienempi kuin 1. Pienet Kw:n arvot pienentävät mahdollisuutta saada arvoja, jotka ovat efektiivisen arvon monikertoja; toisaalta 10 liian pienet arvot voivat antaa maksimin, joka vastaa todellisen arvon murto-osaa tai haja-arvoa, ja tämän vaikutus on vielä pahempi. Näin ollen arvo Kw on kompromissi näiden kahden välillä, esim. sopivasta arvosta, jota käytetään kooderin käytännön toteutuksessa, on 0,7.
On huomattava, että jos viive dH on suurempi kuin kehyksen pituus, 15 kuten voi sattua käytettäessä melko lyhyitä kehyksiä (esim. 80 näytettä), summauksen alarajan tulee olla Lf-dH, 0:n sijasta, jotta tarkasteltaisiin ainakin yhtä äänijaksoa.
Kaavalla (3) laskettua viivettä voidaan korjata, jotta taattaisiin mahdollisimman tasainen viiveen kehityssuunta, menetelmillä, jotka ovat saman 20 kaltaisia kuin on kuvattu IT-patenttihakemuksessa nro TO 93A 000 244, jätetty 9. huhtikuuta 1993. Tämä koijaus suoritetaan, jos signaalin edellinen kehys oli soinnillinen (lippu V arvossa 1) ja jos lisälippu S oli aktiivinen, joka lisälippu signaloi puhejaksosta, jolla on tasainen kehityssuunta, ja jonka synnyttää piiri GS, joka kuvataan myöhemmin.
25 Tämän korjauksen suorittamiseksi tehdään kaavan (3) paikallisen maksimin etsintä edelliseen kehykseen liittyvän arvon d(-1) läheisyydessä ja paikallista maksimia vastaavaa arvoa käytetään, jos tämän paikallisen maksimin ja päämaksimin välinen suhde on suurempi kuin tietty kynnys. Hakuvälin määrittelevät arvot 30 di_' = max [(1-0s)d(-1), dj dH' = max [(1+0s)d(-1), dH] missä 0S on kynnys, jonka merkitys tulee selvemmäksi, kun kuvataan lipun S synnyttäminen. Tämän lisäksi haku suoritetaan vain, jos kaavalla (3) vallitsevassa kehyksessä laskettu viive d(O) on välin dV - d'H ulkopuolella.
35 Lohko GS laskee absoluuttiarvon 7 111486 |β| ldm-dro-i| m=Ld + 1....0 (β) ^m-1 suhteellisesta viiveen vaihtelusta kahden peräkkäisen kehyksen välillä tietylle lukumäärälle Ld kehyksiä, ja kussakin kehyksessä S synnyttää lipun S, jos | 0 | 5 on pienempi tai yhtäsuuri kuin kynnys 0S kaikille Ld kehyksille. Ld:n ja 0s:n arvot riippuvat Lf:stä. Käytännön toteutukset käyttävät arvoja Ld = 1 tai Ld = 2 vastaavasti 160:n ja 80:n näytteen kehyksille; vastaavat 0s:n arvot olivat 0,15 ja 0,1.
LT1 lähettää CV.IIe (kuvio 1), liitoskohdan 61 kautta, indeksin j(d) 10 (käytännössä d-di_+1) ja lähettää arvon d luokittelupiireille CL ja piireihin LT2, jotka laskevat pitkän aikavälin ennustekertoimen b ja vahvistuksen G. Nämä parametrit saadaan vastaavasti suhteista: (7) 15 R(d·^ R(0,0) w missä R on relaation (2) antama kovarianssifunktio. Edellä tehdyt 20 havainnot R:n lausekkeessa esiintyvän summauksen alarajan suhteen pätevät myös relaatioihin (7), (8). Vahvistus G antaa viitteen pitkän aikavälin ennusteen tehokkuudesta ja b on tekijä, jolla menneisiin jaksoihin liittyvää viritystä täytyy painottaa koodausvaiheen aikana. LT2 myös muuntaa (8):n antaman arvon G ·· vastaavaksi logaritmiseksi arvoksi G(dB) = 10!ogioG ja lähettää arvot b ja G(dB) 25 luokittelupiireihin CL (liitoskohtien 32, 33) kautta ja lähettää CVrhen (kuvio 1) liitoskohdan 62 kautta indeksi j(b), joka saatiin b:n kvantisoinnin kautta. Liitoskohdat 60, 61, 62 kuviossa 2 muodostavat yhdessä kuvion 1 liitoskohdan 6.
Liitteessä on C-kielinen listaus LT1:n, GS:n, LT2:n suorittamista toimenpiteistä. Tästä listauksesta lähtien alaa tuntevalla ei ole vaikeuksia :" 30 suunnitella tai ohjelmoida kuvattuja toimintoja suorittavia laitteita.
Luokittelupiirit muodostuvat kahden lohkon RA, RV sarjasta. Ensimmäisen tehtävänä on tunnistaa, vastaako kehys aktiivista puhejaksoa ja synnyttää sen vuoksi lippu A, joka viedään liitoskohtaan 40. Lohko RA voi olla mikä tahansa useasta alalla tunnetusta tyypistä. Valinta riippuu myös 35 puhekooderin CV laadusta. Esimerkiksi, lohko RA voi oleellisesti toimia kuten suosituksessa CEPT-CCH-GSM 06.32 kuvataan, ja siten se voi vastaanottaa 8 111486 ST:stä ja LT1:stä, liitoskohtien 30, 31 kautta informaatiota, joka vastaavasti liittyy lineaarisiin ennustekertoimiin ja äänijaksoon. Vaihtoehtoisesti RA voi toimia kuten jo mainittu R. Oi Francescon et alii paperissa.
Lohko RV, joka toimii lipun A ollessa arvossa 1, vertaa LT2:sta vas-5 taanotettuja arvoja b ja G(dB) vastaaviin kynnyksiin. Esillä olevan keksinnön mukaan kynnykset bs, Gs ovat adaptiivisia kynnyksiä, joiden arvo on arvojen b ja G(dB) funktio. Adaptiivisten kynnysten käyttö mahdollistaa suuresti lisätä kestävyyttä taustakohinaa vastaan. Tämä on perusteellisen tärkeää erityisesti liikkuvien tietoliikennejärjestelmien sovelluksissa, ja se parantaa myös riippumatto-10 muutta puhujasta.
Adaptiiviset kynnykset lasketaan kussakin kehyksessä seuraavalla tavalla. Ensiksikin b:n, G(dB):n todelliset arvot skaalataan vastaavilla tekijöillä Kb, KG, jolloin saadaan arvot b' = Kb.b, G' = KG.G(dB). Sopivat arvot kahdelle vakiolle Kb, KG ovat vastaavasti 0,8 ja 0,6. Arvot b' ja G' suodatatetaan sitten 15 alipäästösuodattimen läpi, jotta saataisiin vallitsevaan kehykseen liittyvät kynnysarvot bs(0), Gs(0), relaatioiden bs(0) = (1-a)b' + abs(-1) (9')
Gs(0) = (1-a)G’ + aG(-1) (9") mukaan, missä bs(-1) ja Gs(-1) ovat edelliseen kehykseen liittyvät arvot ja a on 20 vakio, joka on pienempi kuin 1 mutta hyvin lähellä arvoa 1. Alipäästösuodatuk-sen päämääränä, kertoimen ollessa hyvin lähellä arvoa 1, on saada kynnysa-daptaatio seuraamaan taustakohinan kehityssuuntaa, joka on yleensä verrattain vakaa myös pitkien jaksojen tapauksessa, eikä puheen kehityssuuntaa, joka on tyypillisesti epävakaa. Esimerkiksi, kerroinarvo a valitaan vastaamaan muuta-25 man sekunnin aikavakiota (esim. 5) ja näin ollen muutaman sadan kehyksen mittaista aikavakiota.
Arvot bs(0) ja Gs(0) leikataan sitten olemaan välillä bs(L) - bs(H) ja Gs(L) - Gs(H). Tyypillisä arvoja kynnyksille ovat 0,3 ja 0,5 b:lle ja 1 dB ja 2 dB G(dB):lle. Lähtösignaalin leikkaus mahdollistaa välttää liian hitaita paluita rajati-:1 30 lanteen tapauksessa, esim. sävelen koodauksen jälkeen, kun tulosignaaliarvot ovat hyvin korkeita. Kynnysarvot ovat ylärajojen vieressä tai ovat ylärajoilla, kun taustakohinaa ei ole ja kohinatason noustessa ne pyrkivät alarajoille.
Kuvio 3 esittää soinnillisuusilmaisimen RV rakenteen. Tämä ilmaisin muodostuu oleellisesti komparaattoriparista CM1, CM2, jotka voivat vastaanot-35 taa, lipun A:n ollessa 1, LT2:sta b:n ja G(dB):n arvot, verrata niitä kehys kehykseltä laskettuihin kynnyksiin, jotka vastaavat kynnyksen synnyttävät piirit CS1, 9 111486 CS2 ovat vieneet langoille CS1, CS2, ja antaa lähdöissä 36, 37 signaali, joka ilmaisee, että syöttöarvo on suurempi tai yhtäsuuri kuin kynnykset. AND-veräjät AN1 ja AN2, joilla on yhdet tulot vastaavasti kytkettyinä lankoihin 32 ja 33, ja toiset tulot kytketty lankaan 40, käynnistävät piirit RV vain aktiivisen puheen ta-5 pauksessa. Lippu V voidaan saada lähtösignaalina AND-veräjästä AN3, joka vastaanottaa kahteen tuloonsa kahden komparaattorin antamat signaalit.
Kuvio 4 esittää kynnyksen bs synnyttävän piirin CS1 rakenteen; CS2:n rakenne on samanlainen.
Piiri sisältää ensimmäisen kertojan M1, joka vastaanottaa langoilla 10 32' olevan kertoimen b, skaalaa sen tekijällä Kb ja synnyttää arvon b'. Tämä syötetään positiiviseen tuloon vähentäjässä S1, joka vastaanottaa negatiiviseen tuloonsa lähtösignaalin toisesta kertojasta M2, joka kertoo arvon b' vakiolla a.
S1:n lähtösignaali viedään summaajaan S2, joka vastaanottaa toiseen tuloon lähtösignaalin kolmannesta kertojasta M3, joka kertoo keskenään vakion a ja 15 kynnyksen bs(-1), joka liittyy edelliseen kehykseen ja saadaan viivästämällä viive-elimellä D1 kehyksen pituutta vastaavan ajan verran piirin lähdössä 36 olevaa signaalia. S2:n lähdössä oleva arvo, joka on (9'):n antama arvo, syötetään sitten leikkauspiiriin CT, joka sitten, jos tarpeen, leikkaa arvon bs(0) siten, että se pysyy annetun alueen sisällä ja antaa leikatun arvon lähdössä 36. Näin ollen 20 leikattua arvoa käytetään seuraaviin kehyksiin liittyvissä suodatuksissa.
On selvää, että mitä on kuvattu, on annettu ainoastaan ei-rajoittavana esimerkkinä ja että muunnelmat ja modifikaatiot ovat mahdollisia poikkeamatta keksinnön hengestä.
• 4 1 <.
« ‘ 10 111486
Liite /1 Haetaan pitkän aikavälin ennusteviivettä: 1/ 5
Rwrfdmax=-DBL_MAX; for (d_=dL; d_<=dH; d_++) (
Rrfd0=0.; •JO for (n=Lf-dH; n<=Lf-l; n++)
RrfdO+=rf[n-d_]1rf[n];
Rwrf[d_]=w_[dJ1RrfdO; •J5 jf (Rwrf[d_J>Rwrfdmax) ( d[0]=d_;
Rwrfdmax=Rwrf(d_]; } 20 ) f1 Haetaan toisen kerran pitkän aikavälin ennusteviivettä edellisen arvon ympäriltä: 1/ 25 dL_=sround((l.-absTHHTAd(hr)1d[-1]); dH_=sround((l.+absTHETAdthr)1d[-l]); if (dL_<dL) dL =dL; • · l —.7 else if (dH_>dH) dH_=dH; if (smoothing[-l J&&voicing[-l]&&(d[0]<dL_ld[0]>dH_)) ( 35 Rwrfdmax_=-DBL_MAX; for (d_=dL_;d_<=dH„;d_++) if (Rwrf[d_]>Rwrfdmax_) { 11 111486 d_=d_;
Rwrfdmax_=Rwrf[d_]; } 5 if (Rwrfdmax_yRwrfdmax>=KRwrfdthr) d[0]=d_; ) /* Tasauspäätös: */ 10 smoothing[0] = l; for (m=-Lds+l; m<=0; m++) if (fabs(d[m]-d[m-l])/d[m-l]>absTHETAdthr) smoothing[0]=0; 15 /* Pitkän aikavälin ennustekertoimen ja vahvistuksen laskenta */
Rrfdd=Rrfd0=Rrf00=0.; for (n=Lf-dH; n<=Lf-l; n++) 20 t
Rrfdd+=rf[n-d[0]]*rf[n-d[0]];
Rrfd0+=rf[n-d[0]]*rf[n];
Rrf00+=rf[nj*rf[n]; ; } 25 b=(Rrfdd>=epsilon)?RrfdO/Rrfdd:0.;
GdB=(Rrfdd>=epsilon&&Rrf00>=epsilon)?-10.*logl0(l.- b*Rrfd0/Rrf00):0.;

Claims (13)

12 111486
1. Menetelmä puhesignaalin koodaukseen, jossa koodattava signaali jaetaan digitaalisten näytteiden kehyksiksi, jotka sisältävät saman lukumäärän 5 näytteitä; kunkin kehyksen näytteille suoritetaan pitkän aikavälin ennusteana-lyysi, jotta signaalista saataisiin erotettua parametriryhmä, joka sisältää äänijak-soa vastaavan viiveen d, ennustekertoimen b ja ennustevahvistuksen G, ja luokittelu, joka ilmaisee, vastaako kehys itse aktiivista vai inaktiivista puhesignaa-lisegmenttiä, ja aktiivisen signaalisegmentin tapauksessa, vastaako segmentti 10 soinnillista vai soinnitonta ääntä, kun segmenttiä pidetään soinnillisena, jos sekä ennustekerroin ja ennustevahvistus ovat suurempia tai yhtäsuuria kuin vastaavat kynnykset; ja koodausyksiköilie annetaan informaatiota kyseisistä parametreista mahdollista lisäämistä koodattuun signaaliin varten yhdessä luokittelusta kertovien parametrien kanssa, joilla yksiköissä valitaan eri koodaustavat 15 puhesegmentin ominaisuuksien mukaan; tunnettu siitä, että pitkän aikavälin analyysin aikana viive estimoidaan kovarianssifunktion maksimin mukaan, painotettuna painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettu jakso on todellisen jakson monikerta, ikkunan sisällä, jonka pituus ei ole pienempi kuin itse viiveen suurin mahdollinen arvo; ja siitä, että ennustekertoimen 20 ja vahvistuksen kynnykset ovat kuhunkin kehykseen adaptoituja kynnyksiä, jotta seurattaisiin taustakohinan kehityssuuntaa eikä puheen; adaptaatiota käytettäessä ainoastaan aktiivisten puhesignaalisegmenttien tapauksessa.
2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että painotusfunktio kullekin sallitulle viivearvolle on funktio, joka on tyyppiä w(d) * 25 = dlog2Kw, missä d on viive ja Kw on positiivinen vakio pienempi kuin 1.
3. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että kovarianssifunktio lasketaan koko kehykselle, jos viiveen suurin sallittu arvo on pienempi kuin kehyksen pituus, tai näyteikkunalle, jonka pituus on yhtä suuri kuin maksimiviive ja joka sisältää kehyksen, jos maksimiviive on suurempi kuin ... 30 kehyksen pituus.
4. Patenttivaatimuksen 3 mukainen menetelmä, tunnettu siitä, että kussakin kehyksessä synnytetään äänijakson tasausta ilmaiseva signaali, ja pitkän aikavälin analyysin aikana, jos edellisessä kehyksessä oleva signaali oli soinnillinen ja suoritettiin äänijakson tasaus, suoritetaan myös painotetun kova- 35 rianssifunktion toisen maksimin etsintä edellisessä kehyksessä löydetyn arvon ympäristössä, ja tätä toista maksimia vastaavaa arvoa käytetään viiveenä, jos 13 111486 se poikkeaa ennalta asetettua määrää pienemmällä määrällä vallitsevan kehyksen kovarianssifunktion maksimista.
5. Patenttivaatimuksen 4 mukainen menetelmä, tunnettu siitä, että äänijakson tasausta ilmaisevan signaalin synnyttämiseksi lasketaan kahden 5 peräkkäisen kehyksen välinen viiveen vaihtelu ennalta asetetulle lukumäärälle vallitsevaa kehystä edeltäviä kehyksiä; näiden vaihtelujen absoluuttiarvot estimoidaan; näin saatuja absoluuttiarvoja verrataan viivekynnykseeen ja ilmaiseva signaali synnytetään, jos absoluuttiarvot ovat kaikki alempia kuin viivekynnys.
6. Patenttivaatimuksen 4 tai 5 mukainen menetelmä, tunnettu 10 siitä, että ympäristön leveys on viivekynnyksen funktio.
7. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että pitkän aikavälin ennustekertoimen ja vahvistuksen kynnyksien laskemiseksi kehyksessä, ennustekertoimen ja vahvistuksen arvot skaalataan vastaavilla ennalta asetetuilla tekijöillä; edellisessä kehyksessä saadut kynnykset ja sekä ker- 15 toimen että vahvistuksen skaalatut arvot alipäästösuodatetaan ensimmäisellä suodatuskertoimella, joka saa aikaan kehyksen kestoon verraten hyvin pitkän aikavakion, ja vastaavasti toisella suodatuskertoimella, joka on ensimmäisen 1-komplementti; ja että ennustekertoimen ja vahvistuksen skaalatut ja suodatetut arvot summataan vastaavaan suodatettuun kynnykseen, summauksesta saata-20 van arvon ollessa päivitetty kynnysarvo.
8. Patenttivaatimuksen 7 mukainen menetelmä, tunnettu siitä, että summauksesta saatavat kynnysarvot leikataan maksimiarvon ja minimiarvon mukaan, ja siitä, että seuraavassa kehyksessä näin leikatut arvot alipäästösuodatetaan. ··' 25 9. Laite puhesignaalin digitaaliseen koodaukseen, sisältää välineet (TR), joilla jaetaan puhesignaalin digitaalisten näytteiden sekvenssi kehyksiin, jotka muodostuvat ennalta asetetusta lukumäärästä näytteitä; puhesignaalin en-nusteanalyysiin tarkoitetut välineet (AS), jotka sisältävät piirit (ST), jotka synnyttävät parametrit, jotka edustavat lyhyen aikavälin spektriominaisuuksia ja lyhyen 30 aikavälin ennustejäännössignaalia, ja piirit (LT1, LT2), joilla jäännössignaalista saadaan parametreja, jotka edustavat pitkän aikavälin spektriominaisuuksia, käsittäen pitkän aikavälin analyysin viiveen eli äänijakson d, ja pitkän aikavälin ennustekertoimen b ja vahvistuksen G; välineet apriori luokitteluun (CL), jotka tunnistavat, vastaako kehys aktiivisen puheen jaksoa vaiko hiljaisuutta ja vas-35 taako aktiivisen puheen jakso soinnillista vai soinnitonta ääntä, luokitteluvälineiden sisältäessä piirit (RA, RV), jotka synnyttävät ensimmäisen ja toisen lipun (A, 111486 V) aktiivisen puhejakson ja soinnillisen äänen signaloimiseksi vastaavasti, toisen lipun synnyttävien piirien (RV) sisältäessä välineet (CM1, CM2), joilla verrataan ennustekertoimen ja vahvistuksen arvoja vastaaviin kynnyksiin ja joilla annetaan tuo lippu, kun kumpikin noista arvoista on suurempi kuin kynnykset; puhekoo-5 dausyksiköt (CV), jotka synnyttävät koodatun signaalin käyttämällä ainakin joitain ennusteanalyysivälineiden synnyttämistä parametreista, ja joita mainitut liput (A, V) ohjaavat asettamaan koodattuun signaalin eri informaatiota kehyksessä olevan puhesignaalin luonteen mukaan, tunnettu siitä, että pitkän aikavälin analyysiviiveen määrittävät piirit (LT1) laskevat tuon viiveen maksimoimalla 10 jäännössignaalin kovarianssifunktion, kun tuo funktio lasketaan näyteikkunan sisällä, jonka pituus ei ole pienempi kuin suurin viiveelle sallittu arvo, ja sitä painotetaan painotusfunktiolla, joka pienentää todennäköisyyttä, että laskettava maksimiarvo on todellisen viiveen monikerta; ja siitä että toisen lipun (V) synnyttävissä piireissä (RV) olevat vertailuvälineet (CM1, CM2) suorittavat vertailun 15 kehys kehykseltä vaihtelevin kynnyksin ja ovat yhteydessä kynnykset synnyttäviin välineisiin (CS1, CS2), kun vertailuvälineet ja kynnyksiä synnyttävät välineet toimivat ainoastaan ensimmäisen lipun esiintyessä.
10. Patenttivaatimuksen 9 mukainen laite, tunnettu siitä, että painotusfunktio kullekin sallitulle viivearvolle on funktio joka on tyyppiä w(d) = 20 dl092Kw, missä d on viive ja Kw on positiivinen vakio pienempi kuin 1.
11. Patenttivaatimusten 9 ja 10 mukainen laite, tunnettu siitä, että pitkän aikavälin analyysiviiveen laskevat piirit (LT1) ovat yhteydessä välineisiin (GS), joilla tunnistetaan kehyssekvenssi, jossa on viiveen tasaus, jotka välineet synnyttävät ja antavat piireille (LT1) kolmannen lipun (S), jos kyseisessä ·· 25 kehyssekvenssissä peräkkäisten kehysten välisen suhteellisen viiveen vaihtelun absoluuttiarvo on aina pienempi kuin ennalta asetettu viivekynnys.
12. Patenttivaatimuksen 11 mukainen laite, tunnettu siitä, että viiveen laskevat piirit (LT1) suorittavat kehyksessä lasketun viivearvon korjauksen, jos edellisessä kehyksessä annettiin toinen ja kolmas lippu (V, S), ja anta- 30 vat käytettäväksi arvoksi sen, joka vastaa painotetun kovarianssifunktion toista maksimia edellisessä kehyksessä lasketun viivearvon ympäristössä, jos tämä maksimi on suurempi kuin ennalta määrätty murto-osa päämaksimista.
13. Patenttivaatimusten 9 ja 10 mukainen laite, tunnettu siitä, että ennustekertoimen ja vahvistuksen kynnykset synnyttävät piirit (CS1, CS2) 35 sisältävät: 15 111486 - ensimmäisen kertojan (M1), jolla skaalataan kerroin tai vahvistus vastaavalla tekijällä; - alipäästösuodattimen (S1, M2, D1, M3), jolla suodatetaan edelliselle kehykselle laskettu kynnys ja skaalattu arvo vastaavasti ensimmäisen suodatus- 5 kertoimen mukaan, joka vastaa arvoltaan kehyksen pituutta paljon suurempaa aikavakiota, ja toisen kertoimen mukaan, joka on ensimmäisen 1 :n komplementti; - summaajan (S2), joka antaa vallitsevan kynnysarvon suodatettujen signaalien summana; 10. leikkauspiirin (CT), jolla kynnysarvo pidetään ennalta asetetun arvo- välin sisällä. « 16 111486
FI942761A 1993-06-10 1994-06-10 Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa FI111486B (fi)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ITTO930419 1993-06-10
ITTO930419A IT1270438B (it) 1993-06-10 1993-06-10 Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce

Publications (3)

Publication Number Publication Date
FI942761A0 FI942761A0 (fi) 1994-06-10
FI942761A FI942761A (fi) 1994-12-11
FI111486B true FI111486B (fi) 2003-07-31

Family

ID=11411549

Family Applications (1)

Application Number Title Priority Date Filing Date
FI942761A FI111486B (fi) 1993-06-10 1994-06-10 Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa

Country Status (10)

Country Link
US (1) US5548680A (fi)
EP (1) EP0628947B1 (fi)
JP (1) JP3197155B2 (fi)
AT (1) ATE170656T1 (fi)
CA (1) CA2124643C (fi)
DE (2) DE628947T1 (fi)
ES (1) ES2065871T3 (fi)
FI (1) FI111486B (fi)
GR (1) GR950300013T1 (fi)
IT (1) IT1270438B (fi)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
KR970017456A (ko) * 1995-09-30 1997-04-30 김광호 음성신호의 무음 및 무성음 판별방법 및 그 장치
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
FI971679A (fi) * 1997-04-18 1998-10-19 Nokia Telecommunications Oy Puheen havaitseminen tietoliikennejärjestelmässä
FI113903B (fi) 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US5999897A (en) * 1997-11-14 1999-12-07 Comsat Corporation Method and apparatus for pitch estimation using perception based analysis by synthesis
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
JP4641620B2 (ja) * 1998-05-11 2011-03-02 エヌエックスピー ビー ヴィ ピッチ検出の精密化
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US6507814B1 (en) 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
FI116992B (fi) 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
KR100388488B1 (ko) * 2000-12-27 2003-06-25 한국전자통신연구원 유성음 구간에서의 고속 피치 탐색 방법
US6876965B2 (en) 2001-02-28 2005-04-05 Telefonaktiebolaget Lm Ericsson (Publ) Reduced complexity voice activity detector
FR2825505B1 (fr) * 2001-06-01 2003-09-05 France Telecom Procede d'extraction de la frequence fondamentale d'un signal sonore au moyen d'un dispositif mettant en oeuvre un algorithme d'autocorrelation
US7177304B1 (en) * 2002-01-03 2007-02-13 Cisco Technology, Inc. Devices, softwares and methods for prioritizing between voice data packets for discard decision purposes
USH2172H1 (en) * 2002-07-02 2006-09-05 The United States Of America As Represented By The Secretary Of The Air Force Pitch-synchronous speech processing
AU2003248029B2 (en) * 2002-09-17 2005-12-08 Canon Kabushiki Kaisha Audio Object Classification Based on Statistically Derived Semantic Information
DE102005002195A1 (de) * 2005-01-17 2006-07-27 Siemens Ag Verfahren und Anordnung zur Regeneration eines optischen Datensignals
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
KR100717396B1 (ko) 2006-02-09 2007-05-11 삼성전자주식회사 로컬 스펙트럴 정보를 이용하여 음성 인식을 위한 유성음을판단하는 방법 및 장치
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466675B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US10423650B1 (en) * 2014-03-05 2019-09-24 Hrl Laboratories, Llc System and method for identifying predictive keywords based on generalized eigenvector ranks
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US10390589B2 (en) 2016-03-15 2019-08-27 Nike, Inc. Drive mechanism for automated footwear platform
FR3056813B1 (fr) * 2016-09-29 2019-11-08 Dolphin Integration Circuit audio et procede de detection d'activite
EP3306609A1 (en) 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359696A (en) * 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
US5208862A (en) * 1990-02-22 1993-05-04 Nec Corporation Speech coder
CA2051304C (en) * 1990-09-18 1996-03-05 Tomohiko Taniguchi Speech coding and decoding system
JPH04264600A (ja) * 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding

Also Published As

Publication number Publication date
US5548680A (en) 1996-08-20
ATE170656T1 (de) 1998-09-15
DE69412913T2 (de) 1999-02-18
DE628947T1 (de) 1995-08-03
GR950300013T1 (en) 1995-03-31
CA2124643A1 (en) 1994-12-11
ES2065871T1 (es) 1995-03-01
ITTO930419A0 (it) 1993-06-10
CA2124643C (en) 1998-07-21
EP0628947B1 (en) 1998-09-02
FI942761A (fi) 1994-12-11
IT1270438B (it) 1997-05-05
JP3197155B2 (ja) 2001-08-13
ES2065871T3 (es) 1998-10-16
FI942761A0 (fi) 1994-06-10
ITTO930419A1 (it) 1994-12-10
EP0628947A1 (en) 1994-12-14
JPH0728499A (ja) 1995-01-31
DE69412913D1 (de) 1998-10-08

Similar Documents

Publication Publication Date Title
FI111486B (fi) Menetelmä ja laite puhesignaalin äänijakson estimointiin ja luokitteluun digitaalisissa puhekoodereissa
AU2020281040B2 (en) Audio encoder and decoder
US7155386B2 (en) Adaptive correlation window for open-loop pitch
US6202046B1 (en) Background noise/speech classification method
US6134518A (en) Digital audio signal coding using a CELP coder and a transform coder
RU2441286C2 (ru) Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов
US10706865B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
US6047253A (en) Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal
US6910009B1 (en) Speech signal decoding method and apparatus, speech signal encoding/decoding method and apparatus, and program product therefor
EP1159739A1 (en) Method and apparatus for eighth-rate random number generation for speech coders
US5313554A (en) Backward gain adaptation method in code excited linear prediction coders
Zhang et al. A CELP variable rate speech codec with low average rate
Bae et al. On a new predictor for the waveform coding of speech signal by using the dual autocorrelation and the sigma-delta technique
JP3390897B2 (ja) 音声処理装置及びその方法
CN111630591A (zh) 支持不同丢失消隐工具的集合的音频解码器
LE RATE et al. Lei Zhang," Tian Wang," Vladimir Cuperman"*" School of Engineering Science, Simon Fraser University, Burnaby, BC, Canada* Department of Electrical and Computer Engineering, University of California, Santa Barbara, USA

Legal Events

Date Code Title Description
GB Transfer or assigment of application

Owner name: TELECOM ITALIA S.P.A.

MA Patent expired