SE505156C2

SE505156C2 - Förfarande för bullerundertryckning genom spektral subtraktion

Info

Publication number: SE505156C2
Application number: SE9500321A
Authority: SE
Inventors: Peter Haendel
Original assignee: Ericsson Telefon Ab L M
Priority date: 1995-01-30
Filing date: 1995-01-30
Publication date: 1997-07-07
Also published as: FI973142A; JPH10513273A; AU696152B2; CN1110034C; CN1169788A; EP0807305B1; AU4636996A; DE69606978D1; US5943429A; CA2210490C; CA2210490A1; BR9606860A; KR19980701735A; ES2145429T3; WO1996024128A1; EP0807305A1; SE9500321L; SE9500321D0; KR100365300B1; FI973142A0

Description

505 156 2 För att belysa de svårigheter som råder vid talförbättring ur brusiga data noteras att de spektrala subtraktionsmetoderna baseras på ﬁltrering genom användande av es- timerade modeller av inkommande data. Om dessa estirnerade modeller ligger nära de underliggande ”sanna” modellema är detta en väl fungerande metod. På grund av talets korttidsstationalitet ( 10-40 ms) samt den fysikaliska realitet som omger en mobiltele- fontillämpning (8000 Hz samplingsfrekvens, 0,5-2,0 sekunders stationalitet för bullret, etc.) är det dock sannolikt att de estimerade modellerna väsentligt avviker från den un- derliggande verkligheten och därför resulterar i en ﬁltrerad utsignal med låg ljudkvalitet.

EP, A1, 0 588 526 beslaiver ett förfarande i vilket spektral analys utförs antingen med den snabba Fouirer-transformen (FFT = Fast Fourier Transformation) eller linjär prediktiv kodning (LPC = Linear Predictive Coding).

SUMMERING AV UPPFINNINGEN Ett syftemål för föreliggande uppﬁnning är erbjudande av ett förfarande för bullerun- der-tryckning genom spektral subtraktion som ger en bättre bullerreduktion utan att offra ljudkvalitet.

Detta syftemål löses genom de kännetecknande särdragen i krav 1.

KORT BESKRIVNING AV RITNINGARNA Uppﬁnningen samt ytterligare syftemål och fördelar med denna förstås bäst genom hänvisning till nedanstående beskrivning tillsammans med de bifogade ritningarna, i vilka: FIGUR 1 är ett blockschema av ett bullerundertryckningssystem genom spektral sub- traktion lämpligt för utförande av förfarandet enligt föreliggande uppfinning; FIGUR 2 är ett tillståndsdiagram för en talaktivitetsdetektor (VAD = Voice Activity Detector) som kan användas i systemet enligt figur l; FIGUR 3 är ett diagram av två olika estimat av den spektrala effekttätheten för en talrarn; FIGUR 4 är ett tidsdiagram av en samplad audíosignal som innehåller tal och bak- grundsbuller; FIGUR 5 är ett tidsdiagram av signalen i figur 3 efter spektral bullersubtraktion i enlighet med känd teknik; 505 156 3 FIGUR 6 är ett tidsdiagrarn av signalen i ﬁgur 3 efter spektral bullersubtraldcion i enlighet med föreliggande uppﬁnnirig; och FIGUR 7 är ett ﬂödesschema som illustrerar förfarandet enligt föreliggande uppﬁnníng.

DETALJERAD BESKRIVNING Av DE FÖREDRAGNA UTFÖRJNGSFORMERNA DEN SPEKTRALA SUBTRAKTIONSMETODEN Betrakta en ram innehållande tal förvrängt av additivt buller a:(k)=s(k)+v(k) k=1,...,N (1) där æUc), .s(k) och v(k) betecknar den bullriga mätningen av tal, själva talet och det addítiva bullret, och N betecknar antalet sampel i en ram.

Talet antas stationärt över ramen, medan bullret antas långtidsstationärt, dvs. sta- tionärt över flera ramar. Antalet ramar där v(k) är stationärt betecknas 'r >> l. Vidare antages att talaktiviteten är tillräckligt låg, så att en modell av bullret noggrant kan estimeras under perioder utan talaktivitet.

Beteckna effekttäthetsspektrum (PSD = Power Spectral Density) av mätningen, talet och bullret med ,(w), ,(w) respektive ,,(w), där (Mw) = Ödw) + (Pdw) (2) Om ,(w) och ,,(w) är kända kan kvantiteterna ,,(w) och sUc) estimeras genom spektrala subtralctionsmetoder av standardtyp, se [2], vilka kort summeras nedan.

Lät .§(k) beteckna estimatet av sUc). Då. gäller att (3) där _7~"(-) betecknar någon linjär transform, t ex den diskreta Fourier transformen (DFT) och där H (w) är en reell-värd jämn funktion i w E (0,21r) sådan att 0 g H (w) g l. 505 156 4 Funktionen H (w) beror av ,(w) och ,,(w). Eftersom H (w) är reell-värd är fasen av É'(w) = H (w)X (w) lika med fasen av det förvrängda talet. Användning av den reell- värda funktionen H (w) motiveras av det mänskliga örats okänslighet för fasdistortion.

I allmänhet är ,,(w) och ,,(w) okända och måste i H (w) ersättas av estimerade kvantiteter ,,(w) och ,,(w). På grund av talets icke stationära karaktär estimeras ,(w) ur en enda ram av data, medan ,,(w) estimeras genom användning av data i 1' talfria ramar. För enkelhets skull antages att en talaktivitetsdetektor (VAD) är tillgänglig för särskiljande av ramar som innehåller bullrigt tal och ramar som innehåller enbart buller. Det antas att ,,(w) estirneras under perioder utan talaktivitet genom medelvärdesbildriíng över ﬂera ramar, exempelvis genom användande av a *Pdwle = P«»(w)”"1 + (1 - P)<ï>v(w) (4) I (4) är ,,(w)¿ det (löpande) medelvärdesbildade effekttäthetsspektrumet baserat på data fram till och inkluderande ramnummer å, och är 1,(w) estimatet baserat på den aktuella ramen. Skalären p ê (0, 1) justeras i förhållande till den antagna stationaliteten av vUc).

Ett medelvärde över 'r ramar svarar grovt mot p implicit definierat av 2 1_p=f (a Ett lämpligt estimat av eﬁekttäthetsspektrum (utan några apriori antaganden avseende bakgrundsbullrets spektrala form) är givet av @m»=§wwWw> w där ”*” betecknar komplexkonjugatet och där l/(w) = .7-'(v(k)). Om ]-'(-) =FFT(-) (snabba Fourier-transformen), är ,,(w) periodogrammet och ,,(w) i (4) det medelvärdes- bildade periodograrmnet, vilka båda leder till asymtotiskt (N >> 1) konsistenta (inbiased) estimat av effekttäthetsspektra med approximativa varíanser Var(<ï>v(w)) ß Öﬁíw) zz I 'et Varßßvlwl) AW) 5 05 1 5 6 5 Ett uttryck som svarar mot (7) gäller för x(w) under talaktivitet (om ©2611) i (7) ersätts med Ett system för bullenmdertryckning genom spektral subtraktion lämpligt för utförande av förfarandet enligt föreliggande uppfinning illustreras i blockform i ﬁgur 1. Från en mikrofon 10 leds audiosignalen æ(t) till en A/D-omvandlare 12. A/Domvandlaren 12 avger digitaliserade audiosampel i ramform {a:(k)} till ett transformblock 14 tex. ett F FT-block (Fast Fourier Transforrn), som transformerar varje ram till en motsvarande frekvenstraiisformerad ram (X (w)}. Den transformerade ramen ﬁltreras av É(w) i block 16. Detta steg utför den egentliga spektrala subtraktionen. Den resulterande signalen {.S(w)} transformeras tillbaka till tidsdomänen genom ett inverstransformblock 18. Re- sultatet är en ram {.š(k)}, i vilken bullret har undertryckts. Denna ram kan ledas till en ekosläckare 20 och därefter till en talkodare 22. Den talkodade signalen leds sedan till en kanalkodare och en modulator för utsändning (dessa element visas ej).

Den faktiska formen av É(w) i block 16 beror av de estimat z(w), ,,(w) som bildas i effekttäthetsspektrumestimatom 24, nedan kallad PSD-estimatorn, och de analytiska uttryck som används för dessa estimat. Exempel på olika uttryck ges i tabell 2 i nästa avsnitt. Huvuddelen av följande beskrivning kommer att koncentreras på olika metoder att bilda estimaten Ö,(w), ﬁl>,,(w) ur insignalramen PSD-estimatorn 24 styrs av en talaktivitetsdetektor (VAD) 26, som använder insignal- ramen {:c(k)} för att bestämma huruvida ramen innehåller tal (S) eller bakgrundsbuller (B). En lämplig talaktivitetsdetektor beskrivs i (5), Talaktivitetsdetektorn, VAD, kan implementeras såsom en tillståndsmaskín med de fyra tillstånd som illustreras i ﬁgur 2.

Den resulterande styrsignalen S /B avges till PSD-estimatom 24. När VAD 26 indikerar tal (S), tillstånd 21 och 22, kommer PSD-estimatorn 24 att bilda ,(w). Å andra sidan, om VAD 26 indikerar aktivitet utan tal (B), tillstånd 20, kommer PSD-estimatorn 24 att bilda ,,(w). Det senare estimatet kommer att användas för att bilda É(w) under nästa talrarnssekvens (tillsammans med Ö,(w) för var och en av ramarna i denna sekvens).

Signalen S /B avges också till spektralsubtralctionsblocket 16. På detta sätt kan blocket 16 pålägga olika filter under ramar med eller utan tal. Under talramar utgörs I:I(w) av ovan nämnda uttryck i x(w), Ö, Under ramar utan tal kan I:I(w) å andra sidan vara en konstant H (0 _<_ H 3 1), som reducerar bakgrundsljiidnivån till samma nivå som den 505 156 Tabell 1: Efterﬁltreringsfunktioner TILLSTÅND (st) É(w) KOMMENTAR 0 1 (vw) sug) = fur) 20 0.316 (vw) därnpning -iodß 21 0.7 Hei) försiktig ﬁltfefmg çsdß) 22 É(w) bakgrundsljudnivå som återstår i talramarna efter bullerundertryckmng. På detta sätt kommer den fórnimmade bullernivån att vara densamma under både ramar med och utan tal.

Innan utsignalen i (3) beräknas kan .š(k), i enlighet med en fdredragen utförings- form, efter-filtreras enligt H,,(w) = max (oi, wwzäuts) vw (s) där Ü(w) beräknas enligt tabell 1. Skalären 0,1 innebär att bullereller brusgolvet är -20 dB. Vidare avges signalen S/ B även till talkodaren 22. Detta medger olika kodning av tal och bakgrundsljud.

PSD-FELANALYS Det är uppenbart att stationalitetsantagandena som påläggs s(k) och v(lc) ger upphov till gränser på hur noggrant estimatet š(k) är i järnförelse med den brus- eller buller- fria talsignalen s(k). I detta avsnitt introduceras en analysmetod för spektrala subtrak- tionsmetoder. Denna baseras på första ordningens approximationer av PSD-estimaten ,_.(w) respektive ,,(w) (se (11) nedan), i kombination med approxirnativa (nollte ord- ningens approximationer) uttryck för noggrannheten i de introducerade avvikelserna. I det följande hårleds i synnerhet ett uttryck for frekvensdomärifelet för den estimerade sig- nalen šUc), dels beroende på. den använda metoden (valet av överföringsfimktion H (w)) och dels beroende på noggrannheten i de ingående PSD-estimatorerna. På grund av det mänskliga örats okånslighet för fasdistortion är det relevant att betrakta FSD-felet som 505 156 7 deﬁriieras av öslw) = êslw) _ (PSÛU) (9) där s = HM l (10) Observera att <í>_,(w) genom sin konstruktion är en felterm som beskriver skillnaden (i frekvensdomänen) mellan magnituden av den ﬁltrerade brusiga mätningen och magni- tuden av talet. Därför kan s(w) antaga både positiva och negativa värden och utgör ej effekttäthetsspektrum för någon tidsdomärisignal. I (10) betecknar P^I(w) ett estirnat av H (w) baserat på Özßu) och v(w). I detta avsnitt begränsas analysen till fallet eiïektsub- traktion (PS=Power Subtraction), Andra val av Û(w) kan analyseras på ett liknande sätt (se APPENDIX A-C). Dessutom introduceras och analyseras nya val av É(w) (se APPENDIX D-G). En sammanfattning av de olika lämpliga valen av Û(w) ges i tabell 2.

Deﬁnitionsmässigt tillhör H (w) intervallet 0 g H (w) g 1, vilket ej nödvändigtvis gäller för motsvarande estimerade kvantiteter i tabell 2, och av denna anledning används i praktiken halv eller helvågslilcríláriing, För utförande av analysen antages att ramlängden N är tillräckligt stort (N >> 1) för att z(w) och v (w) skall vara approximativt konsistenta (unbiased). Introducera första ordningens avvikelser Özlw) = <1>=(wl+/-\x(w) (11) ,,(w) = ,,(w)+A,,(w) där A,,(w) och A1,(w) är stokastiska variabler med medelvärdet noll med egenskaperna E[A,(w)/,,(w)]2 << 1 och E[A,,(w)/,,(w)]2 << 1. Här och i fortsättningen betecknar E statistiskt väntevärde. Om vidare korrelationstiden för bullret är kort jämfört med ramlängden, gäller att E[(,,(w)e - ,,(w))(1,(w)'° - ,,(w))] æ Û för É 94 k, där Ö._,(w)¿ är estimatet baserat på data i den åte ramen. Av detta följer att A,(w) och A1,(w) är approximativt oberoende. Om däremot bullret är starkt korrelerat antas att ,,(w) har 505 156 Tabell 2: Exempel på olika spektrala subtraktionsmetoder: Eﬁfektsiibtrak- non (Ps) (standard Ps, írpsçii) för a = 1), Magmtudsubtfak- tion (MS), spektrala subtralctionsmetoder baserade på Wiener- ﬁltrering och Maximum Likelíhood metoder samt förbättrad efïektsubtraldion (IPS) i enlighet med en fóredragen iitfóringsfom av föreliggande uppﬁnning. 15I(w) FLsPsO-ß) = 1 - 6<ï>v(~)/<í>1(w) :men = 1 - ÉWI-WW) = Ûšdw) ÉML(w) = å(1 + Hps(w)) ÛIPSW) = \/ Û(W)ÜPS(W) 505 156 9 ett begränsat (<< N) antal (starka) toppar placerade vid frekvenserna wl, ..., wn. I så fall gäller E[(<_I->,,(w)¿ - ,,(w)) (¿I_>,,(w)'° - ,,(w))] w 0 för w # wj j = 1, . . . ,n och 2 # k, så att analysen fortfarande gäller för w 96 wj j = 1,.. . ,n.

Ekvation (11) innebär att asymptotisk (N >> 1) konsistenta PSD-estimatorer, såsom periodogrammet eller det medelvärdesbildade periodogrammet används. Vid användning av asymtotiskt inkonsistenta PSD-estimatorer, såsom Blackman-'Iiirkey PSD-estimatom, gäller dock en liknande analys om (ll) ersätts med (Ihlw) = =(wl + AIM + BIM och åälw) = v(w) + A000) + Btw) där B,(w) respektive B,,(w) är deterministiska termer som beskriver den asymptotiska inkonsistensen i PSD-estimatorerna.

Vidare innebär ekvation (ll) att s(w) i (9) är en linjär fiinktion (i första ordningens approximation) av A,(w) och A1,(w). I det följande betraktas prestanda av de olika metoderna i termer av konsistensfel (E [Ös(w)]) och felvarians (Varßï), (w))). En fullständig härledning ges för FIFS (w) i nästa avsnitt. Liknande härledningar för de andra spektrala subtraktionsmetodema i tabell 1 ges i APPENDIX A-G.

ANALYS Av Hpsçii) (lämna) för 6 = 1) Om (10) och Hpsßv) från tabell 2 införs i (9) ger en enkel beräkning, under användande av Taylor-seriutvecklingen (1 + æ)'1 z 1 - a: och om avvikelser av ordningar högre än den första försummas, uttrycket <ï>s<~> = ::((:§A, - att» <12> där ”E” används för att beteckna approximativ likhet då endast de dominerande termema behålls. Kvantiteterna A,(w) och A.,,(w) är stokastiska variabler med medelvärde noll.

Det vill säga E[s(w)1 2 o (m) 505 156 och vafßiuw» = vaf + varßirrwn <14> I fortsättningen används det generella resultatet att för en asymtotiskt konsistent (unbí- ased) spektral estimator (w) gäller, se (7) Vßf(<ï>(w)) 2 ^1(w) <ï>2(w) (15) för en viss (eventuellt frekvensberoende) variabel ^y(w). T .ex. svarar periodogammet mot 'y(w) w 1 + (sínwN /N sin w)2, som för N >> 1 reduceras till *y æ 1. Kombinering av (14) och (15) ger Var(<ï>s(w)) f: Wåíw) (16) RESULTAT FÖR Hmm) Liknande beräkningar för ÉMS(w) ger (detaljer ges i APPENDIX A): ° ~ (DÄW) E[s(w)] _ 2,,(w) (1 - Övwà) och 2 Var(s(w)) 'z 1- 1+ És-(lfl 7 fl>v(w) RESULTAT FÖR Hwpw) Beräkningar för Iïlwﬂw) ger (detaljer ges i APPENDIX B): Ö., (w) (DIQU) Etïuwﬂ = - (1- )<1>1, och 505 156 RESULTAT FÖR Hime) Beräkningar för ÉML(w) ger (detaljer ges i APPENDIX C): Eßïuwn f= §<1>v - å- (\/<1>.~\/<1>,)2 och 2 vaf=%(1+ vain» RESULTAT FÖR Éfpstu) Beräkningar för É;pg(w) ger (Iïlypgﬁu) härleds i APPENDIX D och analyseras i AP- PENDIX E): Elödwll 2 (Ölw) - 1)<ï>=(w) och Va.r(s(w)) z Özßu) ma) + zman” 2 x (Öna) + 7,,(w) WW) + wçz (w) 7,,(w) GEMENSAMMA SÄRDRAG För de betraktade metoderna noteras att konsistensfelet (bias error) endast beror av valet av I^I(w), medan felvariansen beror av både valet av É(w) och variansen av de använda PSD-estimatorerna. Exempelvis erhålls för det medelvärdesbildade periodogra- mestimatet av 1,(w) ur (7) att 7,, æ 1/7. Genom användning av ett periodogram in- nehållande endast en ram för estirneringen av ,(w) erhålls å andra sidan 7, a: 1. För r >> 1 utgörs den dominerande termen i 7 = 7,, + 71,, som förekommer i ovanstående vari- ansekvationer, av termen 7, och huvudfelkällan är sålunda det på en enda ram beräknade PSD-estimatet som baseras på det brusiga talet.

Av ovanstående amnärkliingar följer att för förbättring av de spektrala subtraktíons- metoderna är det önskvärt att minska värdet på 7, (val av lärnplig PSD-estimator, dvs. en approximativt konsistent estimator med så goda prestanda som möjligt) och att välja en 505 156 12 ”bra” spektral subtraktionsmetod (val av Û(w)). En grundidé till föreliggande uppﬁnning är att värdet av 7,, kan reduceras genom utnyttjande av en fysikalisk modell av talorganet (vilket reducerar antalet frihetsgrader från N (antalet sampel i en ram) till ett värde min- dre än N). Det är väl känt att s(k) nogrant kan beskrivas av en autoregessiv (AR) modell (i typfallet av ordning p æ 10). Detta är ämnet för de nästa två avsnitten.

Dessutom beror noggrannheten av s(w) (och implicit noggrannheten av .š(k)) av valet av Û Nya föredragna val av É(w) härleds och analyseras i APPENDIX D-G.

AUTOREGRESSIV TALMODELL I en föredragen utföringsform av föreliggande uppfinning modelleras s(k) såsom en autoregressiv (AR) process 1 ÉF) där A(q'1) är ett moniskt polynom (den ledande koeíﬁcienten är lika med ett) av ordning s(k)= w(k) k=1,...,N (17) p i bakåtskiftoperatom (q°1w(k) = w(k - 1), etc.) A(q") = l+ a1q'l+ + apqﬁ' (18) och w(k) är vitt brus med medelvärde noll och varians of, Vid en första anblick kan det verka alltför restriktivt att endast betrakta AR-modeller. Användningen av AR-modeller för talmodellering motiveras dock av både den fysikaliska modelleringen av talorganet och, vilket är väsentligare här, av fysikaliska begränsningar av noggrannheten i de estimerade modellema beroende på det brusiga talet.

I talsigrialbehandlirig kan ramlängden N vara otillräckligt stor för att medge utnytt- jande av medelvärdesbildningsmetoder inuti ramen i syfte att reducera variansen och fortfarande bibehålla PSD-estimatorns konsistens. I syfte att minska eﬁekten av den första termen i exempelvis ekvation (12) måste sålunda fysikalisk modulering av talorganet användas. AR-striilﬁtiiren (17) påläggs .s(k). Explícit ger detta ,(w) = w + ,,(w) (19) |A(@*”)|2 Dessutom kan ,,(w) beskrivas med en parametrisk modell _ U lß12 505 156 13 där B(q"1) och C'(q'1) är polynom av ordning q respektive r, vilka definieras på liknande sätt som A(q"l) i (18). För enkelhets skull används en pararnetrisk brusmodell i (20) i nedanstående diskussion där ordningen av den parametriska modellen estimeras. Det inses dock att andra modeller av bakgrundsbruset eller -bullret också är möjliga. Om (19) och (20) kombineras kan man visa att där n(k) är vitt brus med medelvärde noll och varians of, och där D(q"l) ges av identiteten Uâlmßwﬂz = Uålcüﬂwllz + U§lB(@w)l2lÅ(@w)l2 (22) TALPARAMETERESTIMERING Estimeringen av parametrarna i (l7)-(l8) är enkel när inget tillkommande brus förekom- mer. Observera att i det brusfria fallet försvinner den andra termen på högra sidan i (22) och reduceras (21) därför till (17) efter pol-nollställeskvittning.

Här söks en PSD-estimator baserad på autokorellationsmetoden. Det finns fyra motiv för detta. o Autokorrelationsmetoden är välkänd. I synnerhet är de estimerade parametrarna av typen ”minimum phase”, vilket säkerställer det resulterande filtrets stabilitet. o Genom användning av Levinson-algoritmen är metoden enkel att implementera och har metoden låg beräkningskomplexitet. o En optimal procedur innehåller en icke-linjär optimering, som explicit erfordrar någon typ av initialiseringsprocedur. Autokorrelationsmetoden kräver ej någon sådan. o Ur praktisk synpunkt är det fördelaktigt om samma estimeringsprocedur kan an- vändas för det försämrade talet respektive det rena talet när sådant förekommer.

Med andra ord, estimeringsmetoden bör vara oberoende av det faktiska driftssce- nariot, dvs. oberoende av tal-till-bullerförhållandet.

Det är välkänt att en ARMA-modell (såsom (21)) kan modelleras såsom en AR-process av oändlig ordning. När ett ändligt antal datapunkter finns tillgängliga för pararneteres- timering måste AR-modellen av oändlig ordning trunkeras. Den här använda modellen 505 156 14 1 fflk) = FHM/lf) (23) där F(q"1) är av ordning ß. En lämplig modellordning framgår av nedanstående diskus- sion. Den approximativa modellen (23) ligger nära den brusiga talprocessen om de spek- trala eífekttätheterna är approximativt lika, dvs. om |D<@='~>P g 1 lA(@"“)|2 IC (ß'“”)|2 |F(@"“)|2 På basis av den fysikaliska modellen av talorganet är det vanligt att anse att p = deg(A(q“1)) = 10. Ur (24) följer även att 13 = deg(F(q'1) >> deg(A(q"))+deg(C(q“1)) = p + r, där p + r grovt sett är lika. med antalet toppar i ,(w). Å andra sidan erfordrar (24) modellering av brusiga smalbandiga processer genom AR-modeller att ß << N för att säkerställa tillförlitliga PSD-estimat. Sammanfattningsvis gäller att p+r<<ß< En lämplig tumregel ges av 13 ~ JN. Av ovanstående diskussion kan det förväntas att ett parametriskt synsätt är fruktbart om N >> 100. Av (22) kan man också dra slutsatsen att ju plattare brusspektrum är desto mindre värden på N tillåts. Även om ß ej är tillräckligt stort förväntas det parametriska synsättet ge rimliga resultat. Anledningen härtill är att den parametriska metoden i termer av felvarians ger väsentligt noggrannare PSD-estirnat än en periodogram baserad metod (i ett typiskt exempel är förhållandet mellan varianserna lika med 1:8, se nedan), vilket väsentligt reducerar artifakter såsom musikbuller i utsignalen.

Den parametriska PSD-estimatorn kan sammanfattas enligt följande. Använd autoko- rrelationsmetoden och en AR-modell av hög ordning (modellordning ß >> p och ß ~ x/Ü) för beräkning av .ÄR-parametrarna {f1, . . . , fp) och brusvariansen å: i (23). Beräkna ur den estimerade AR-modellen (i N diskreta punkter svarande mot frekvensmätpunkterna för ma) 1 (3)) inta) enligt <í>,,(w) = (25) IFTCWNZ Sedan används en av de i tabell 2 angivna spektrala subtraktionsmetoderna för förbättring av talet s(k). 505 156 15 Härnäst används en approximation av låg ordning för variansen av den parametriska PSD-estirnatorn (liknande den i (7) för de betraktade icke-parametriska metoderna) och följaktligen används en serieutveckling av s(k) under antagandet att bruset är vitt. Då ges den asyrnptotiska variansen (för både antalet datapunkter (N >> 1) och modellordningen (jí >> 1)) för fl>z(w) av varuiuwn = äïbšrw) (26) Ovanstående uttryck gäller även för en ren AR-process av (hög ordning). Ur (26) följer direkt att 7, z Zß/N vilket enligt ovan nämnda tumregel approximativt är lika med 7, f: 2/ JJTI, vilket bör jämföras med 'yæ æ 1 som gäller för en periodogrambaserad PSD- estimator.

Exempelvis är det rimligt att i en s.k. ”hands free” -miljö inom mobiltelefoni antaga att bullret är stationärt under omkring 0,5 sekunder (vid 8000 Hz samplingsfrekvens och en rarnlängd N = 256), vilket ger 'r z 15 och därför 7,, f: 1/15. För 13 = [Ü gäller vidare 7,, = l / 8.

Figur 3 illustrerar skillnaden mellan ett periodogram PSD-estimat och ett parametrisk PSD-estimat i enlighet med föreliggande uppfinning för en typisk talram. I detta exempel är N=256 (256 sampel) och har en AR-modell med 10 parametrar använts. Det ob- serveras att det pararnetriska PSD-estimatet Özßu) är mycket jämnare än motsvarande periodogram PSD-estimat.

Figur 4 illustrerar 5 sekunder av en samplad audiosignal innehållande tal i en bullrig bakgrund. Figur 5 illustrerar signalen i ﬁgur 4 efter spektral subtraktion baserad på ett periodogram PSD-estimat som prioriterar hög ljudkvalitet. Figur 6 illustrerar signalen i figur 4 efter spektral subtraktion baserade på ett parametriskt PSD-estimat i enlighet med föreliggande uppfinning.

En jämförelse av ﬁgurerna 5 och 6 visar att en väsentlig bullerundertryckning (av stor- leksordningen 10 dB) erhålls genom förfarandet i enlighet med föreliggande uppfinning.

(Såsom noterats ovan i samband med beskrivningen av figur 1 är de reducerade buller- riivåerna lika höga i både ramar med och utan tal.) En annan skillnad, som ej framgår av figur 6, är att den resulterande talsignalen är mindre förvrängd än talsigrialen i figur 5.

De teoretiska resultaten, i termer av inkonsistens (bias) och felvarians av FSD-felet summeras i tabell 3 for alla de betraktade metoderna. 505 156 Tabell 3: H(w) 16 Bias- och variansuttryck för effektsubtralction (PS) (standard PS, Ép_g(w) fór 6 = 1), magnitudsubtralction (MS), förbättrad effekt- subtraktion (IPS) och spektrala subtmktionsmetoder baserade på Wiener-ﬁltrering och Maximum Likelihood (ML) metoder.

Det momentana SNB-värdet deﬁnieras av SN R = s(w)/,_.

För PS ges den optimala subtralctionsfaktorn Û av (58) och fór IPS ges Ö' (w) av (45) med ,(w) och 1, (w) ersatta. av Ö, (w) respektive <ï>v(w)- Bms VAmANs El<ï>4~>1/<1>.,<~> vaf<<ï>s<~>>/~f<1>2<~> 6PS MS IPS WF ML 1-6 9 -2(\/1 + SNR - 1) (\/1 + SNR - 1)” _ sNR sNR* 2 ,1sNR 2 WSNR” (SNRHY) (1+2"s§1>8+7) SNR 2 dm) _ SNR ¿(1+,/1+S§R)2 SHR-Fl å - åßf-SNPL' + ï - JSNR? 505 156 17 Det är möjligt att gradera de olika metoderna. Åtminstone två kriterier för hur en lämplig metod skall väljas kan särskiljas.

För det första, för lågt momentant SNR (SNR=signal to noice ratio), är det önskvärt att metoden har låg varians fór undvikande av tonartifalcter i Detta är ej möjligt utan ökad inkonsistens, och denna inkonsistensterm bör, i syfte att undertrycka (och ej förstärka) frekvensområdena med lågt momentant SNR, ha ett negativt tecken (så att s(w) i (9) tvingas mot noll). De kandidater som uppfyller detta kriterium är MS, IPS och WF i tabell 3.

För det andra, för högt momentant SNR är en låg grad av taldistortion önskvärd.

Om vidare inkonsistenstermen är dominerande bör den ha ett positivt tecken. ML, PS, IPS och (möjligen) WF i tabell 3 uppfyller det förstnämnda kravet. Inkonsistenstermen dominerar i MSE-uttrycket endast för ML och WF, varvid tecknet för inkonsistenstermen är positivt för ML och negativt för WF. Därför uppfyller ML, SPS, PS och IPS detta kriterium.

ALGORITMISKA ASPEKTER l detta avsnitt beskrivs föredragna utfóringsformer av den spektrala subtraktionsme- toden i enlighet med föreliggande uppﬁnning under hänvisning till ﬁgur 7. 1. Insignal: x= {a:(k)|k = 1,...,N}. 2. Designvariabler ß ordningen för tal-i-bullerrnodellen p löpande medelvärdesuppdateringsfalctor för ,,(w) 3. För varje ram av indata utför: (a) Taldetektering (steg 110) Variabeln Speech sätts till sann om talaktivitetsdetektorns VAD utsignal är lika med st = 21 eller st = 22. Variabeln Speech sätts till falsk om st = 20.

Om VAD-utsignalen är lika med st = 0 initialiseras algoritmen på nytt. (b) Spektral estimering Om Speech estimera ,(w): 505 156 is i. Estimera koeﬂicienterna (polynomkoeﬁicienterna (fi, . . . , få och variansen 6:) för modellen (23) med enbart poler genom användning av autokorrela- tionsmetoden applicerad på indata {:z:(k)} justerade till medelvärdet noll (steg 120). ii. Beräkna ,(w)en1igr (25) (steg 130).

I annat fall estimeras ,,(w) (steg 140) i. Uppdatera den spektrala modellen (la, (w) av bakgrundsbullret genom an- vändning av (4), där 515,, (w) är periodogrammet baserat på indata x juster- ade till medelvärde noll och Hanning/Harnrning fönsterbehandlacle. Efter- som fönsterbehandlade data används här, trots att ,(w) baseras på data som ej fönsterbehandlats, måste ,,(w) normaliseras på rätt sätt. Ett lämpligt initialvärde på Ö” (w) ges av medelvärdet (över frekvenstapparna) av periodogammet för den första ramen skalat med exempelvis en faktor 0,25, vilket innebär att initialt påläggs ett apriorí antagande om vitt brus på bakgrundsbullret. (c) Spektral subtraktion (steg 150) i. Beräkna frekvensviktníngsfiniktionen finn) enligt tabell 1. ii. Eventuell efterﬁltrering, dämpning och bullergolvjustering. iii. Beräkna utsignalen genom användning av (3) och data {:z:(k)} justerade till medelvärde noll. Dessa data {m(k)} kan men behöver ej fönsterbehandlas, beroende på den faktiska ramöverlappningen (ett rektangulärt fönster an- vänds för icke-överlappande ramar, medan ett Hanning-fönster används vid 50% överlappning).

Av ovanstående beskrivning framgår att föreliggande uppfinning resulterar i en väsent- lig bullerreduktion utan att ljudkvaliten oifras. Den förbättring kan förklaras genom de separata eífektspektrumestirneringsmetoder som används för ramar med och utan tal.

Dessa metoder utnyttjar skillnaden i karaktär mellan tal och icke-tal (bakgrundsbuller), i och för minimering av variansen i respektive eﬁektspektrumestimat. 0 För ramar utan tal estimeras ,, (w) av en icke-pararnetrisk metod för eifektspektru- mestimering, tex. en FFT-baserad periodogram estimering, som använder alla N 505 156 19 samplen i varje ram. Genom bibehållande av alla ﬁrihetsgrader i den talíšria ramen kan en större mångfald av bakgrundsbuller modelleras. Eftersom bakgrundsbullret antages vara stationärt över ﬂera ramar kan en reduktion av variansen av v(w) erhållas genom medelvärdesbildning av eifektspektrumestimatet över ﬂera talfria IQIDQI. o För talramar estimeras Ö,(w) av en parametrisk metod för effektspektrurnestimeríng baserad på en parametrisk talmodell. I detta fall används talets speciella karaktär för reducering av antalet frihetsgrader (till antalet parametrar i den parametriska modellen) för talramen. En modell baserad på färre parametrar reducerar variansen i eífektspektnirnestimatet. Denna metod föredras för talramar, eftersom tal antas vara stationärt över endast en ram.

Fackmannen inser att olika förändringar och modifieringar av uppﬁnningen är möjliga utan att dessa faller utanför uppﬁnningens ram, vilken deﬁnieras av de bifogade paten- tkraven. 505 156 20 APPENDIX A ANALYS Av HMsw) Analogt med beräkningarna för ÉMSQu) erhålls 2 ÖJWÛ <1>,(w)- ma) Ö, (w) N _ ÖÅW) w _ (DIÅW) w w _ ( _q,v(w))(2<1>v< > QJEQJÛAJ >+A,,< >) där den andra likheten utnyttjar Taylor-serie-expansionen \/1 + a: z: 1 + :r / 2. Av (27) följer att väntevärdet av Ö, (w) är skilt från noll och ges av E[<í>s(w)] 2 2<1>,,(w) (1 _- äg) (28) Vidare gäller att vaf(<ï>s(w)) 2 Öz-(w) 2 ﬁ(w) ~ ~ <1-, (WVarßPAwﬂ + Var(,,(w))) Kombínering av (29) och (15) ger (29) va;f(<í>,(w))= <1- 1+ æsßà) yøﬁw) (so) 505 156 21 APPENDIX B ANALYs Av Išrwﬂe) I detta Appendix härleds PSD-felet vid talförbättring baserad på Wiener-filtrering I detta fall ges .Û(w) av “W Hae) (sn _ <í> ”WM = = Här är $(w) ett estímat av s (w), och den andra likheten följer av Ösßu) = <í>æ(w)-,,(w).

Under beaktande av att ffâvew ~ NW)(<1>5<~>+2{3'4ﬂAe-Ae ' z e <ß2> ger en enkel befälming >< (Abvw) + 2 Aew) - Aewn (33) Uf (ss) feuef ett El<1>e och vef<<ï>s<~>> e 4 ( - "(:))2w<1>ï (35) 505 156 22 APPENDIX C ANALYS Av Hmm) Vid karakteriseririg av tal genom en deterministisk vâgform av okänd amplitud och fas deﬁnieras en spektral subtralctionsmetod enligt maximum líkelihood-principen (ML) ma) (H ,I1- (540)) 1 5 (1 + Épsfuà) aV ^ HMLQU) = (Oh-I II Om (11) införs i (36) ger en enkel beräkning ÉA/Ilxuàzš (1 + (PÅW) (1 Av (W) + :v (OJ) Aag-Û) i) ÖIÛU) _ (PÅW) :(90) (DÅW) (n, m) Jrg 1 (Quad) 4 ,/<1>,(w)<1>s(w) <1>=(w) där Taylor-serie-exparisionen (1 -+-:c)"l z 1 - a: används i den första och V1 + a: z 1+:c/ 2 används i den andra likheten. Nu är det enkelt att beräkna PSD-felet. Införing av A,(w) - A,,(w)) (37) i (9)-(10) ger, om högre än första ordningens avvikelser försummas i expansionen av Hzi/ILW) s(w) z å (l-l- ,(w) -s(w) (33) 1 (brud) (DÄW) “FE (1+ (Dawn) < Ur (38) följer att El<ï>s1 f: å (1 +, <1>= - <1>, (39) wmvßry 1 »ßlP-ﬂ 505 156 23 där (2) används i den andra likheten. Vidare erhålls att 2 vaf=¿(1+ www) <4<>> 505 156 24 APPENDIX D HÄRLEDNING Av Iånpgw) Om Ö,(w) och ,,(w) är exakt kända minimeras det kvadrerade PSD-felet av H pg(w), dvs. Éps-(w) med z(w) och Ö” (w) ersatta av ,(w) respektive (P1, Detta faktum följer direkt ur (9) och (10), dvs. _,(w) = [H2(w),(w)-s(w)]2 = O, där (2) används i den sista likheten. Observera att i detta fall är H (w) en deterministisk kvantktet, medan Û(w) är en stokastisk kvantitet. Om osäkerheten i PSD-estimaten beaktas är ovanstående faktum i allmänhet ej längre sant, och i detta avsnitt härleds en dataoberoende viktningsfuriktion för förbättring av prestanda av Ûpgßiz). För detta ändamål betraktas ett variansuttryck med formen vawïuw» = :write <41> (g = 1 för PS och 5 = (1 - )2 för MS och 7 = 'Ye + 711). Variabeln 7 beror endast av den använda PSD-estimeringsmetoden och kan ej påverkas av valet av överfóringsfunktion É(w). Den första faktorn f beror däremot av valet av Éﬂw). I detta avsnitt söks en dataoberoende viktningsfiniktion Ö(w) sådan att Û(w) = ﬁﬁï) Épg(w) minimerar väntevärdet av det kvadrerade FSD-felet, dvs.

GM = afslåígßlïnluàlz (42) inte) = G(w)i1ï,$(w)<1>,(w) _ ma) I (42) är G(w) en generisk viktningsfunktion. Observera att om viktningsfunktionen G (w) tillåts vara databeroende uppstår en allmän klass av spektrala subtraktionsmetoder, vilken såsom specialfall inkluderar många av de vanligen använda metoderna, såsom mag- nitudsubtraktion om G(w) = Ûfwsßu) / 13126011). Denna observation är dock av föga in- tresse, eftersom optimeringen av (42) med en databeroende funktion G(w) starkt beror av formen av G(w). De metoder som använder en databeroende viktningsfunktion bör därför analyseras en i taget, eftersom inga generella resultat kan härledas i ett sådant fall.

I syfte att minimera (42) ger en enkel beräkning. 505 156 25 (w) (43) +G(w) (ÖÄW) A,(w) - A,,(w)) Beräknas väntevärdet av det kvadrerade PSD-felet och används (41) erhålls Elödwﬂz 2 (GW) - IVÖÉW) + G2 (w) 1 Qﬂw) (44) Ekvation (44) är kvadratisk i G(w) och kan minimeras analytiskt. Resultatet är - WW) G __. .___8___.___ M <1>:<~>+ vezca 1 (45) Öva: = ____________ 1+Y@zﬁ%mf där (2) används i den andra likheten. Icke överraskande beror Ö(w) av de (okända) spektrala effekttätheterna och av variabeln 7. Såsom noterats ovan kan man ej direkt ersätta de okända spektrala effekttätheterna i (45) med motsvarande estimat och hävda att den resulterande modifierade PS-metoden är optimal, dvs. minimerar (42). Det kan dock förväntas att om osäkerheten i Ö,(w) och ,,(w) beaktas i konstruktionsproce- duren kommer den modifierade PS-metoden att uppföra sig ”bättre” än standard-PS. På grund av ovanstående hänsynstagande betecknas denna modiﬁerade PS-metod förbättrad eﬁektsubtraktion (IPS=Improved Power Subtraction). Innan IPS-metoden analyseras i APPENDIX E bör följande anmärkningar noteras.

För högt momentant SNB-värde (for w sådant att ,(w)/fI>,,(w) >> 1) följer av (45) att Ö(w) 'z 1 och, eftersom den normaliserade felvariansen Var(ÖS(w))/§(w) enligt (41) är liten i detta fall, kan man dra slutsatsen att prestanda för IPS ligger (mycket) nära prestanda för standard (PS). För lågt momentant SNB-värde (för w sådant att 'y> § (w)) gäller å andra sidan, se (43) Ö'(w) ß §(w)/ ('yf,(w)), att ﬁàwns~aw> (w) och Qﬁiw) '1<1>?,(w) Vid lågt SNR-värde kan man dock ej dra slutsatsen att (46)-(47) är ens approximativt giltiga när Ö(w) i (45) ersätts av Ö(w), dvs. att '1>,(w) och ,,(w) i (45) ersätts med Vaf(<ï>s(w)) ß (47) motsvarande estirnerade värden z(w) respektive Ö,,(w). 505 156 26 APPENDIX E ANALYS Av Bunau) I detta APPENDIX analyseras IPS-metoden. Låt Ö(w) deﬁníeras av (45), med Ö., (w) och ,(w) ersatta av motsvarande estimerade kvantiteter. Det kan visas att 515500) 2 (GW) ~ 1)<1>s(w) +Ö'(w) ( A,(w) - A1,(w)) (48) ,,(w) + 2z X (GW + ”°”(“') <1>§ + wzrw) Sam kan järnfesras med (43). Explicit erhålls E[<ï>s(w)} 2 (Öüv) ~ 1) och Varßïníﬂà) 2 Özw) ma) + 2<1>,(w))2 wﬂw) X (w) + "Ö" (w) <1>:<«~> + ~f<1>ﬂ~> För högt SNR-värde, så att s(w)/,,(w) >> 1, kan viss insikt erhållas i (49)-(50). I detta fall kan man visa att E[s(w)] 'z 0 (51) och vafßïuw» = (1 + aïfjš ) w<1>â <ß2> De försummade termerna i (51) och (52) är av ordning O((,,(w)/s(w))2). Såsom redan angivits är prestanda för IPS ungefär samma som prestanda för PS vid högt SNR-värde.

För lågt SNR-värde (för w sådant att ﬁ(w)/('y®f(w)) << 1) gäller å andra sidan att ÖW) '-“ (PÉU-Û/ (Vqﬁíwﬁ Och E{°ï>s(w)] = -s(w) (53) 505 156 27 samt <1>í(w) ^r<1>?,(w) En jäxnförelse mellan (53)-(54) och motsvarande PS-resultat (13) och (16) visar att för lågt Var(,(w)) z 9 (54) momentant SNB-värde minskar IPS-metoden väsentligt variansen av fl>s(w) jämfört med PS-standardmetoden genom att Ös (w) i (9) tvingas mot noll. Explicít är förhållandet mel- lan IPS- och PS-variarrsen av storleksordningen O(§(w)/2 (w)). Man kan också jämföra (53)-(54) med det approxímativa uttrycket (47) och notera att förhållandet däremellan är lika med 9. 505 156 28 APPENDIX F PS MED OPTIMAL SUBTRAKTIONSFAKTOR 6 En ofta betraktad modifiering av eﬁektsubtraktionsmetoden är att betrakta uttrycket Hasta = j 1 - m) os) där 6(w) är en eventuellt ﬁekvensberoende funktion. I synnerhet med 6(w) = 6 för någon konstant 6 > 1 betecknas metoden ofta eﬁektsubtraktion med översubtraktion.

Denna modiﬁering minskar väsentligt bullernivån och reducerar tonartifakter. Dessutom förvränger den talet väsentligt, vilket gör modiﬁeringen oanvändbar för högkvalitativ talforbättring. Detta faktum inses lätt ur (55) när 6 >> 1. För moderata och låga tal-till- bullerförhållanden (i w-domänen) är uttrycket under rottecknet mycket ofta negativt, så att den likriktande anordningen kommer att sätta detta värde till noll (halvvågslilcriktning), vilket innebär att endast frekvensband där SNR är högt kommer att ingå i utsignalen .š(k) i (3). På grund av den olinjära likriktningsanordningen kan föreliggande analysmetod ej direkt tillämpas i detta fall, och eftersom 6 > 1 leder till en utsignal med låg ljudkvalitet kommer denna modiﬁering ej att studeras ytterligare.

Ett intressant fall är dock 6 (w) 3 1, vilket inses av följande heuristiska diskussion.

Såsom nämnts tidigare är (55), då ,,(w) och ,,(w) är exakt kända, optimal med 6 (w) = 1 i den meningen att det kvadrerade FSD-felet minimeras. När ,,(w) och ,,(w) å andra sidan är helt okända, dvs. inget estimat av dem är tillgängligt, är det bästa som kan göras att estimera talet direkt ur den bullriga mätningen, dvs. .š(l<:) = .r(k), vilket svarar mot användning av (55) med 6 = 0. På grund av ovanstående två extremfall kan det förväntas att när de okända kvantiteterna ,(w) och ,,(w) ersätts av x(w) respektive ,,(w) minimeras felet E [Ös (w)]2 för något 6(w) i intervallet 0 < 6(w) < 1.

Dessutom studerades en empirisk kvantitet, nämligen den medelvärdesbildade spek- trala distortionsförbättringen, på liknande sätt som PSD-felet med avseende på subtrak- tionsfaktorn för MS. På basis av flera experiment drogs slutsatsen att den optimala sub- traktíonsfaktorn företrädesvis bör ligga i intervallet 0,5 till 0,9.

Explicit beräkning av PSD-felet i detta fall ger 505 156 29 <ï>r = <1 - ﬂwninrw) + ß AM - Arwﬂ (56) Beräknas väntevärdet av det kvadrerade PSD-felet erhålls Elöáwllz ß (1 - <5(w))2 Öﬁw) + 52 'Y<ï>f,(w) (57) där (41) används. Ekvation (57) är kvadratisk i 6(w) och kan minimeras analytiskt.

Betecknas det optimala värdet med 5 erhålls resultatet _ 1 6=-- 1+7<1 (58) Observera att 'y i (58) är approximativt frekvensoberoende (åtminstone for N >> 1) och att därför även É är oberoende av ﬁrekvensen. I synnerhet är É oberoende av ,(w) och ,,(w), vilket innebär att variansen och inkonsistensen i _.,(w) direkt följer ur (57).

Värdet av Ä kan vara väsentligt mindre än ett i vissa (realistiska) fall. Betrakta exempelvis återigen 7,, = 1 / -r och fy, = 1. Då ges 5 av 1 5-1 "21+1/2r vilket för alla värden på 1- uppenbarligen är mindre än 0,5. I detta fall indikerar det faktum att 5 << 1 att osäkerheten i PSD-estimatorerna (och i synnerhet osäkerheten i Ö,(w)) har stor inverkan på utsignalkvaliteten (i termer av FSD-fel). I synnerhet innebär användning av ä << 1 att förbättringen i rni-rrii-bnnerförnåiinnder från insrgrrni nu nrsignni är men.

En fråga som uppkommer är om det existerar en dataoberoende viktningsfunktion Ö(w) på samma sätt som viktníngsfiiriktionen för IPS-metoden i APPENDIX D. I AP- PENDIX G härleds en sådan metod (och betecknas denna ólPS). 505 156 30 APPENDIX G HÄRLEDNING Av Hﬂpgw) I detta appendix söks en dataoberoende viktningsfaktor Ö(w) sådan att Û(w) = 1/Ö(w) Û,;p$(w) för någon konstant 6 (O S 6 3 1) minimerar väntevärdet av det kvadr- erade PSD-felet, se (42). En enkel beräkning ger 5500) = (GW) - 1)<ï>s(w) + G(w)(1- 6) q) (w) (59) om; ((13%)) Ma) _ Avan) Väntevärdet av det kvadrerade FSD-felet ges av Etiska? = - 1>2<1>š+<12<~><1 - ßfdåcw) (60) 2(G(w) - 1) Högra sidan av (60) är kvadratisk i G(w) och kan minimeras analytiskt. Resultatet Ö(w) ges av Gal) = Öšlw) + <ï>š(w)+2<1>s(w)<ï>»(w)(1-<5)+(1-6)2@%(w)+62v*ï>%(w) 1 = í_ <ß1> w 2 1 +13 där ß i den andra likheten ges av _ 2 2 _ ß = (1 <5) +5 7+ (1 5)<ï>s(w)/*ï>v(w) (62) 1+ (1 - <5)v(w)/s(w) För 6 = 1 reduceras (61)-(62) ovan till IPS-metoden (45), och för 6 = 0 erhålls standard- PS. Ersätts s(w) och ,,(w) i (61)-(62) med motsvarande estimerade kvantiteter ,,(w) - ,,(w) respektive ,,(w) erhålls en metod som under beaktande av IPS-metoden ovan betecknas ÖIPS. Analysen av óTPS-metoden liknar analysen av IPS-metoden, men erfor- drar en större insats och tröttsamma enkla beräkningar och utelämnas därför. lll [Gl 505 156 31 REFERENSER S.F. Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Tlrarisactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-27, Apﬁi 1979, pp. 113-120.

J .S. Lim and A.V. Oppenheim, “Enhancement and Bandwidth Compression of Noisy Speech”, Proceedings of the IEEE, Vol. 67, No. 12, December 1979, pp. 1586-1604.

J .D. Gibson, B. Koo and S.D. Gray, “Filtering of Colored Noise for Speech Enhance- ment and Coding” , IEEE Transactions on Acoustícs, Speech, and Signal Processing, Vol. ASSP-39, No. 8, August 1991, pp. 1732-1742.

“Constrained Iterative Speech Enhancement with Vol.

J .H.L Hansen and M.A. Clements, Application to Speech Recognítion”, IEEE Transactions on Signal Processing, 39, No. 4, April 1991, pp. 795-805.

D.K. Freeman, G. Cosier, CB. Southcott I. Boid, “The Voice Activity Detector for the Pan-European Digital Cellular Mobile Telephone Service”, 1989 IEEE In- ternational Conference Acoustics, Speech and Signal Processing, Glasgow, Scotland, 23-26 March 1989, pp. 369-372.

PCT application WO 89/08910, British Telecommunications PLC.

Claims

1. 505 156 lO 6. 32 PATENTKRAV .

2. Förfarande för bullerundertryckning genom spektral subtraktion i ett rambaserat digitalt kommunikationssystem, där varje ram innehåller ett fórutbestämt antal N audiosampel, varigenom varje ram erhåller N frihetsgrader, varvid en spektral sub- traktionsfunktion fﬂw) baseras på ett estimat ,,(w) av den spektrala effekttätheten för bakgnmdsbuller i talfria ramar och ett estimat ,,(w) av den spektrala ef- fekttätheten i talramar, kännetecknat av: approximering av varje talram med en parametrisk modell som reducerar an- talet frihetsgrader till mindre än N; estimering av estimatet z(w) av den spektrala effekttätheten i varje talram genom en parametrisk effektspektrumestimeringsmetod baserad på den approxima- tiva parametriska modellen; och approximering av estimatet Ö,,(w) av den spektrala eﬁekttätheten i varje talfri ram genom en icke parametrisk effektspektrurnestimeringsmetod.

3. Förfarande enligt krav l, kännetecknat av att den approxímativa parametriska mo- dellen ar en autoregressiv (AR) modell.

4. Förfarande enligt krav 2, kännetecknat av att den autoregressiva (AR) modellen approximativt är av ordning JN.

5. Förfarande enligt krav 3, kännetecknat av att den autoregressiva modellen appro- ximativt är av ordning 10.

6. Förfarande enligt krav 3, kännetecknar, av en spektral subtraktionsfiuilrtion Ûßu) i <1~§<~»:f::> där Ö en viktníngsfiniktion och 6(w) är en subtraktionsfaktor. enlighet med formeln: fﬂw) = Förfarande enligt krav 5, kännetecknat av att Ö(w) = 1.

7. Föifarande enligt krav 5 eller 6, kännetecknat av att 6(w) är en konstant g 1. 505 156 33 spektral subtralctionsflnlktion É(w) i

8. Förfaxande enligt krav 3, kännetecknat av en ^ _ _ v(w) H (w) _- 1 èæw) nsfunktion fﬂw) i let) enlighet med formeln:

9. Förfarande enligt krav 3, kännetecknat av en spektral subtralctio ten enlighet med formeln: vÜ-U) j ÉM = (1 _ x

10. Förfarande enligt krav 3, kännetecknat av en spektral subtralctionsmnktion IÉHw) i även) enlighet med formeln: Ö, (w) I:I(w)=-12- (l-l- (1-