ES2758517T3 - Estimación del ruido de fondo en las señales de audio - Google Patents
Estimación del ruido de fondo en las señales de audio Download PDFInfo
- Publication number
- ES2758517T3 ES2758517T3 ES17202308T ES17202308T ES2758517T3 ES 2758517 T3 ES2758517 T3 ES 2758517T3 ES 17202308 T ES17202308 T ES 17202308T ES 17202308 T ES17202308 T ES 17202308T ES 2758517 T3 ES2758517 T3 ES 2758517T3
- Authority
- ES
- Spain
- Prior art keywords
- tio
- line
- noise
- tim
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 48
- 210000000582 semen Anatomy 0.000 claims description 37
- 238000001914 filtration Methods 0.000 claims description 9
- 230000011664 signaling Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000012550 audit Methods 0.000 claims 1
- 241001378740 Mugil liza Species 0.000 description 69
- 150000002500 ions Chemical class 0.000 description 21
- 230000006870 function Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 230000006854 communication Effects 0.000 description 11
- RWGFKTVRMDUZSP-UHFFFAOYSA-N cumene Chemical compound CC(C)C1=CC=CC=C1 RWGFKTVRMDUZSP-UHFFFAOYSA-N 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 230000009467 reduction Effects 0.000 description 7
- 235000015107 ale Nutrition 0.000 description 6
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 101150014198 epsP gene Proteins 0.000 description 5
- 235000014347 soups Nutrition 0.000 description 5
- GHOKWGTUZJEAQD-ZETCQYMHSA-N (D)-(+)-Pantothenic acid Chemical compound OCC(C)(C)[C@@H](O)C(=O)NCCC(O)=O GHOKWGTUZJEAQD-ZETCQYMHSA-N 0.000 description 4
- 101100355940 Xenopus laevis rcor1 gene Proteins 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 239000011148 porous material Substances 0.000 description 3
- 230000000638 stimulation Effects 0.000 description 3
- 241001674048 Phthiraptera Species 0.000 description 2
- 241000383675 Trama Species 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- USSIQXCVUWKGNF-UHFFFAOYSA-N 6-(dimethylamino)-4,4-diphenylheptan-3-one Chemical compound C=1C=CC=CC=1C(CC(C)N(C)C)(C(=O)CC)C1=CC=CC=C1 USSIQXCVUWKGNF-UHFFFAOYSA-N 0.000 description 1
- 101150034533 ATIC gene Proteins 0.000 description 1
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical group CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 241001408449 Asca Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 206010012335 Dependence Diseases 0.000 description 1
- 101100404567 Drosophila melanogaster nesd gene Proteins 0.000 description 1
- 244000194101 Ginkgo biloba Species 0.000 description 1
- 235000008100 Ginkgo biloba Nutrition 0.000 description 1
- 101000973623 Homo sapiens Neuronal growth regulator 1 Proteins 0.000 description 1
- 241001580033 Imma Species 0.000 description 1
- DEFJQIDDEAULHB-IMJSIDKUSA-N L-alanyl-L-alanine Chemical compound C[C@H](N)C(=O)N[C@@H](C)C(O)=O DEFJQIDDEAULHB-IMJSIDKUSA-N 0.000 description 1
- 101100194706 Mus musculus Arhgap32 gene Proteins 0.000 description 1
- 101100400378 Mus musculus Marveld2 gene Proteins 0.000 description 1
- UBUCNCOMADRQHX-UHFFFAOYSA-N N-Nitrosodiphenylamine Chemical compound C=1C=CC=CC=1N(N=O)C1=CC=CC=C1 UBUCNCOMADRQHX-UHFFFAOYSA-N 0.000 description 1
- 102100022223 Neuronal growth regulator 1 Human genes 0.000 description 1
- 241000275031 Nica Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000405961 Scomberomorus regalis Species 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 101100194707 Xenopus laevis arhgap32 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 108010056243 alanylalanine Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- BBBFJLBPOGFECG-VJVYQDLKSA-N calcitonin Chemical compound N([C@H](C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC=1NC=NC=1)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)NCC(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H]([C@@H](C)O)C(=O)N1[C@@H](CCC1)C(N)=O)C(C)C)C(=O)[C@@H]1CSSC[C@H](N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1 BBBFJLBPOGFECG-VJVYQDLKSA-N 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 230000001609 comparable effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- FFYZMBQLAYDJIG-UHFFFAOYSA-N dibenzofuran-2-amine Chemical compound C1=CC=C2C3=CC(N)=CC=C3OC2=C1 FFYZMBQLAYDJIG-UHFFFAOYSA-N 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- PSGAAPLEWMOORI-PEINSRQWSA-N medroxyprogesterone acetate Chemical compound C([C@@]12C)CC(=O)C=C1[C@@H](C)C[C@@H]1[C@@H]2CC[C@]2(C)[C@@](OC(C)=O)(C(C)=O)CC[C@H]21 PSGAAPLEWMOORI-PEINSRQWSA-N 0.000 description 1
- 239000010445 mica Substances 0.000 description 1
- 229910052618 mica group Inorganic materials 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 229940036310 program Drugs 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- JLKIGFTWXXRPMT-UHFFFAOYSA-N sulphamethoxazole Chemical compound O1C(C)=CC(NS(=O)(=O)C=2C=CC(N)=CC=2)=N1 JLKIGFTWXXRPMT-UHFFFAOYSA-N 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- JFALSRSLKYAFGM-UHFFFAOYSA-N uranium(0) Chemical compound [U] JFALSRSLKYAFGM-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Un método para estimar el ruido de fondo en una señal de audio, comprendiendo, el método: a) obtener (201) al menos un parámetro asociado con un segmento de señal de audio de entrada en base a: - una primera ganancia de predicción lineal calculada como cociente entre una energía de la señal de entrada y una energía de señal residual de una primera predicción lineal para el segmento de señal de audio; y - una segunda ganancia de predicción lineal calculada como el cociente entre la energía de señal residual de la primera predicción lineal y una energía de señal residual de una segunda predicción lineal para el segmento de señal de audio; b) determinar (202) si el segmento de señal de audio comprende una pausa libre de voz y música, en base al menos en el al menos un parámetro; y: si se determina que el segmento de señal de audio comprende una pausa: - actualizar (203) una estimación de ruido de fondo en base al segmento de señal de audio.
Description
DESCRIPCIÓN
E stim a c ió n de l ru ido de fo n d o en las se ñ a le s de a ud io
Campo técnico
Las re a liza c io n e s de la p re se n te inve nc ión se re fie ren a p ro ce sa m ie n to de se ñ a le s de aud io , y, en p articu la r, a la e s tim a c ió n de ru ido de fondo , p o r e je m p lo , p a ra s o p o rta r una d e c is ió n de a c tiv id a d son ido .
Antecedentes
En los s is te m a s de co m u n ica c ió n q ue u tilizan tra n s m is ió n d is co n tin u a (D T X ) es im p o rta n te e n c o n tra r un e qu ilib rio e n tre la e fic ie n c ia y el no re d u c ir la ca lidad . En ta le s s is te m as , se usa un d e te c to r de a c tiv id a d para in d ica r señ a le s activas , p o r e je m p lo , de v o z o m úsica , q ue d eben c o d ifica rse a c tiva m e n te , y s e g m e n to s con se ñ a le s de fo n d o que p ueden re e m p la za rse con ru ido de co n fo rt g e n e ra d o en el lado de l re cep to r. S i el d e te c to r de a c tiv id a d es d e m a s ia d o e fic ie n te para d e te c ta r la fa lta de ac tiv ida d , in tro d u c irá un re co rte en la señ a l activa , que luego se p erc ibe co m o d e g ra d a c ió n su b je tiva de la ca lid ad cu a n d o el se g m e n to a c tivo re co rta d o se re e m p la za con ru ido de con fo rt. A l m ism o tiem p o , la e fic ie n c ia de la D T X se re d u ce si el d e te c to r de a c tiv id a d no es lo s u fic ie n te m e n te e fic ie n te y c la s ifica los se g m e n to s de ru ido de fo n d o com o a c tivo s y luego co d ifica a c tiva m e n te el ru ido de fo n d o en lu g a r de e n tra r en un m o do de D T X con ru ido de con fo rt. En la m a yo ría de los casos, el p rob lem a de re co rte se con s id e ra peor.
La figu ra 1 m u es tra un d ia g ra m a de b lo q ue s g e n e ra l de un d e te c to r de a c tiv id a d de son ido g e n e ra liza d o , S AD , o un d e te c to r de ac tiv ida d de voz, V A D , q ue to m a una se ñ a l de a ud io com o e n tra d a y p rod u ce una d e c is ió n de a c tiv ida d co m o sa lida . La señ a l de e n tra da se d iv id e en tra m a s de datos , es dec ir, en s e g m e n to s de se ñ a l de a ud io de, p o r e je m p lo , 5 -30 ms, d e p e n d ie n d o de la im p lan ta c ión , y se p ro d u ce una d e c is ió n de a c tiv id a d p o r tra m a com o sa lida.
U na d e c is ió n p rim aria , "p rim ", es h echa p o r el d e te c to r p rim a rio ilu s tra d o en la fig u ra 1. La d e c is ió n p rinc ip a l es b á s ica m e n te tan só lo una co m p a ra c ió n de las c a ra c te rís tica s de una tra m a a c tu a l con las ca ra c te rís tic a s de fondo, q ue se e s tim a n a p a rtir de tra m a s de e n tra d a an te rio res . U na d ife re n c ia e n tre las c a ra c te rís tica s de la tra m a a c tu a l y las c a ra c te rís tica s de fo n d o que es m a yo r q ue un u m bra l o rig in a una d ec is ió n p rim a ria activa . El b lo q ue de a d ic ión de tra sp a s o se usa para e x te n d e r la d ec is ió n p rim a ria en b ase a d e c is io n e s p rim a ria s p a sa d a s para fo rm a r la d ec is ió n fina l, "b a nd e ra ". La razón para u sa r el tra sp a s o es p rin c ip a lm e n te para re d u c ir/e lim in a r el rie sgo de sa tu ra c ió n de a c tiv id a d en el m e d io y el e x tre m o de fo n d o del recorte . C om o se ind ica en la figu ra , un c o n tro la d o r de fu n c io n a m ie n to p uede a ju s ta r e l/lo s u m b ra le /s para el d e te c to r p rim a rio y la lon g itu d de la a d ic ión de l tra sp a s o de a cu e rd o con las ca ra c te rís tica s de la señ a l de e n trada . El b lo q ue e s tim a d o r de fo n d o se usa para e s tim a r el ru ido de fo n d o en la señ a l de e n tra da . El ru ido de fo n d o ta m b ié n p uede d e n o m in a rse "e l fo n d o " o "la ca ra c te rís tica de fon do " en el p rese n te d ocum e n to .
La e s tim a c ió n de la ca ra c te rís tica de fo n d o se p ue de h a c e r de a cu e rd o con d os p rin c ip io s b á s ica m e n te d ife re n te s, ya sea u sa nd o la d ec is ió n p rim aria , es dec ir, con la d ec is ió n o la re tro a lim e n ta c ió n m é trica de la d ec is ió n , q ue se ind ica m e d ia n te una línea de p u n to s en la figu ra 1, o u sa nd o a lg u n a s o tras c a ra c te rís tica s de la señ a l de e n tra da , es dec ir, sin re tro a lim e n ta c ió n de d ec is ió n . T a m b ié n es p os ib le u sa r co m b in a c io n e s de las dos es tra teg ias .
Un e je m p lo de un có d e c u sa nd o re tro a lim e n ta c ió n de d ec is ió n para la e s tim a c ió n de fo n d o es A M R -N B (b a n d a e s tre ch a de ta sa m ú ltip le a d a p ta tiva ) y e je m p lo s de có d e cs en los q ue no se u tiliza re tro a lim e n ta c ió n de d e c is ió n son el E V R C (có d e c de ta sa va r ia b le m e jo ra d o ) y el G .718.
H ay un n ú m e ro de d ife re n te s c a ra c te rís tica s de la señ a l o ra sgo s que se p ueden u tilizar, pero una ca ra c te rís tica com ú n u tilizad a en los V A D es la c a ra c te rís tica de fre cu e n c ia de la señ a l de e n tra da . Un tip o de c a ra c te rís tica s de fre cu e n c ia c o m ú n m e n te u tilizad o es la e n e rg ía de tra m a de sub b a n d a , d e b id o a su ba ja c o m p le jid a d y a su fu n c io n a m ie n to fia b le en ba ja S N R (re la c ió n se ñ a l/ru id o ). P o r lo tan to , se a su m e q ue la señ a l de e n tra d a se d iv id e en d ife re n te s su b b a n d a s de fre cu e n c ia y se e s tim a el n ive l de fo n d o para ca d a una de las su b b a n d a s . De e sta m anera , una de las c a ra c te rís tica s de ru ido de fo n d o es el v e c to r con los va lo re s de e n e rg ía para cad a sub ba nd a . É s to s son va lo re s q ue ca ra c te riza n el ru ido de fo n d o en la señ a l de e n tra d a en el d o m in io de fre cu e n c ia .
P ara c o n s e g u ir el se g u im ie n to de l ru ido de fondo , la a c tu a liza c ió n de la e s tim a c ió n de ru ido de fo n d o real se puede h a ce r de, p o r lo m enos, tre s m a n e ra s d ife re n te s . U na m a ne ra es u sa r un p roce so de re g re s ió n a u to m á tica , A R , por d e p ó s ito de fre cu e n c ia para m a n ip u la r la a c tu a liza c ió n . E je m p lo s de ta le s có d e cs son el A M R -N B y el G .718. B á s icam en te , para este tip o de a c tu a liza c ió n , el ta m a ñ o del paso de la a c tu a liza c ió n es p ro p o rc io n a l a la d ife re nc ia o b se rva d a e n tre la e n tra d a a c tu a l y la e s tim a c ió n de fo n d o actua l. O tra m a n e ra es u sa r la e sca la m u ltip lica tiva de una e s tim a c ió n a c tu a l con la re s tr icc ió n de q ue la e s tim a c ió n n un ca p ue de s e r m a yo r q ue la e n tra d a a c tu a l o m e n o r q ue un v a lo r m ín im o. E sto s ig n ifica q ue la e s tim a c ió n a u m e n ta en cad a tra m a h asta q ue sea m ás a lta q ue la e n tra da actua l. En esa s itu a c ió n , la e n tra d a a c tu a l se u tiliza co m o e s tim a c ió n . El E V R C es un e je m p lo de có d e c q ue u tiliza e sta té c n ica para a c tu a liz a r la e s tim a c ió n de fo n d o para la fu n c ió n de l V A D . O b sé rve se q ue el E V R C u tiliza d ife re n te s e s tim a c io n e s de fon do para el V A D y la sup re s ió n de ru ido. C ab e s e ñ a la r q ue un V A D se p uede u tiliza r en
o tro s co n te x to s que no sean el de DTX. P o r e je m p lo , en có d e cs de v e lo c id a d va ria b le , com o en el E V R C , el V A D p ue de usa rse com o parte de una fu n c ió n de d e te rm in a c ió n de tasa .
U n a te rce ra fo rm a es u tiliz a r una té c n ica d e n o m in a d a de m ín im os en la que la e s tim a c ió n es el v a lo r m ín im o d u ra n te una v e n ta n a de tie m p o d e s liza n te de tra m a s a n te rio re s . B á s icam en te , e sto p ro p o rc io n a una e s tim a c ió n m ín im a que se esca la , u tiliza n d o un fa c to r de co m p e n sa c ió n , para o b te n e r y a p ro x im a rse a una e s tim a c ió n p ro m e d io de l ru ido e sta c io na rio .
En los ca so s de a lta S N R , d on de el n ive l de se ñ a l de la señ a l a c tiva es m u ch o m a yo r q ue la señ a l de fondo , puede s e r b a s tan te fác il to m a r la d ec is ió n de si una señ a l de e n tra d a de a ud io e stá o no activa . S in e m ba rg o , es m u y d ifíc il se p a ra r las se ñ a le s a c tiva s y no a c tiva s en ca so s de ba ja SN R, y, en p a rticu la r, cu a n d o el fo n d o no es e sta c io na rio , o inc lu so es s im ila r en c a ra c te rís tica s a la señ a l activa.
El re n d im ie n to del V A D d e p e n d e de la ca p a c id a d del e s tim a d o r de ru ido de fo n d o para re a liz a r un se g u im ie n to de las c a ra c te rís tica s de l fon do - en p a rtic u la r cu a n d o se tra ta de fo n d o s no e s ta c io n a ria s . C on un m e jo r seg u im ie n to , es p os ib le h a ce r que el V A D sea m ás e fic ie n te sin a u m e n ta r el r iesgo de re corte de voz.
M ie n tra s q ue la co rre la c ió n es una ca ra c te rís tica im p o rta n te q ue se u tiliza para d e te c ta r el hab la, p rin c ip a lm e n te la parte son o ra de la voz, ta m b ié n h ay se ñ a le s de ru ido q ue m u es tra n a lta co rre lac ión . En e s to s casos, el ru ido con co rre la c ió n im p e d irá la a c tu a liza c ió n de las e s tim a c io n e s de ru ido de fondo . El re su lta d o es una g ran ac tiv ida d , ya q ue ta n to el ru ido de vo z co m o el de fo n d o se co d ifica n com o co n te n id o activo . M ie n tra s q ue para a lto as S N R (a p ro x im a d a m e n te > 20 d B ) sería p os ib le re d u c ir el p ro b le m a u tiliza n d o la d e tecc ión de p ausa en base a ene rg ía , esto no es fiab le para el ra ng o de S N R de 20 d B a 10dB o p o s ib le m e n te de 5dB . Es en e ste ra ng o en el q ue la so lu c ió n d e sc rita en el p rese n te d o cu m e n to m arca la d ife re nc ia .
M. J e lin e k y R. S a lam i, en "N o ise re d u c tio n m e th od fo r w id e b a n d sp e e ch cod ing " 2004, 12a co n fe re n c ia e u ro p e a de p ro ce sa m ie n to de seña les , pp. 1959 -1962 , e n se ñ a un m é to do para la e s tim a c ió n de l ru ido de fo n d o d on de la p re se n c ia de pausas, d u ra n te las cua les se e s tim a d ich o ru ido, se d e te rm in a en base al co c ie n te e n tre un res idua l de una p red icc ió n linea l de se g u n d o o rde n y un re s idu a l de una p red icc ió n linea l de 16° orden .
Sumario
S ería d e se a b le c o n s e g u ir una e s tim a c ió n m e jo ra d a del ru ido de fo n d o en las se ñ a le s de aud io . "M e jo ra d a " p uede im p lica r, en el p re se n te d ocum e n to , to m a r una d e c is ió n m ás co rre c ta con re sp e c to a si una señ a l de a ud io co m p re n d e vo z o m ú s ica a c tiva o no, y, de e ste m odo, e s tim a r m ás a m enudo , p o r e je m p lo , a c tu a liza n d o una e s tim a c ió n a n te rio r, e s ta n d o en re a lid ad lib re de co n te n id o a ctivo , ta l co m o de v o z y /o de m úsica , el ru ido de fon do en los s e g m e n to s de señ a l de aud io . En el p re se n te d o cu m e n to , se p ro p o rc io n a un m é to do m e jo rad o para g e n e ra r una e s tim a c ió n de ru ido de fondo , q ue p uede perm itir, p o r e je m p lo , un d e te c to r de a c tiv id a d de so n id o para to m a r d e c is io n e s m ás ade cu ad as .
P ara el fo n d o de e s tim a c ió n de l ru ido en las se ñ a le s de aud io , es im p o rta n te s e r cap az de e n c o n tra r fu n c io n e s fia b le s para id e n tif ic a r las ca ra c te rís tica s de una señ a l de ru ido de fo n d o ta m b ié n cu a n d o una señ a l de e n tra da co m p re n d e una m e zc la d e sco n o c id a de se ñ a le s a c tiva s y de fondo , d on de las se ñ a le s a c tiva s p ueden c o m p re n d e r vo z y /o m úsica .
El in ve n to r se ha d ad o cu e n ta de q ue las c a ra c te rís tica s re la c io n a d a s con las e n e rg ía s re s id u a le s para d ife re n te s ó rd e n e s de l m o de lo de p red icc ió n linea l p ueden u tiliza rse para d e te c ta r p a u sa s en se ñ a le s de aud io . E s ta s e ne rg ía s re s id u a le s p ueden e xtra erse , p o r e je m p lo , de un a n á lis is de p red icc ió n linea l, q ue es com ú n en los có d e cs de voz. Las c a ra c te rís tica s se p ueden f iltra r y c o m b in a r para c re a r un co n ju n to de c a ra c te rís tica s o p a rá m e tro s q ue se p ueden u sa r para d e te c ta r el ru ido de fondo , lo que h ace q ue la so lu c ió n sea a d e cu a d a para su uso en la e s tim a c ió n de l ru ido. La so lu c ió n d e sc rita en el p rese n te d o cu m e n to es p a rticu la rm e n te e fic ie n te para las co n d ic io n e s cua nd o una S N R está en el ra ng o de 10 a 20 dB.
O tra ca ra c te rís tica p ro p o rc io n a d a en el p re se n te d o cu m e n to es una m e d id a de c e rca n ía e sp e c tra l p a ra el fondo , que p ue de e s ta r h echo p o r e je m p lo m e d ia n te el uso de las e n e rg ía s de su b b a n d a de d o m in io de fre cu e n c ia q ue se u tilizan p o r e je m p lo en una su b b a n d a de S AD . La m e d id a de c e rca n ía e sp e c tra l ta m b ié n p uede u sa rse para to m a r una d ec is ió n sob re si una señ a l de a ud io co m p re n d e o no una pausa.
De a cu e rd o con un p rim e r a sp ec to , se p ro p o rc io n a un m é to do p ara la e s tim a c ió n de ru ido de fondo . El m é to do co m p re n d e o b te n e r al m e no s un p a rá m e tro a so c ia d o con un se g m e n to de señ a l de aud io , ta l com o una tra m a o parte de una tra m a , en b ase a una p rim e ra g a n a n c ia de p red icc ió n lineal, ca lcu la d a com o el co c ie n te e n tre una e n e rg ía de la señ a l de e n tra d a y una e n e rg ía de se ñ a l re s idu a l de una p rim e ra p red icc ió n linea l para el se g m e n to de señ a l de aud io; y, una se g u n d a g a n a n c ia de p red icc ió n linea l ca lcu la d a com o el co c ie n te e n tre la e n e rg ía de señal re s idu a l de la p rim e ra p red icc ió n linea l y una e n e rg ía de señ a l re s idu a l de una se g u n d a p red icc ió n linea l p a ra el se g m e n to de señ a l de aud io . El m é to do co m p re n d e a d ic io n a lm e n te d e te rm in a r si el se g m e n to de se ñ a l de a ud io co m p re n d e una p ausa en base al m e no s en el al m e no s un p a rá m e tro ; y, a c tu a liz a r una e s tim a c ió n de ru ido de
fo n d o en base al se g m e n to de señ a l de a ud io si se d e te rm in a q ue el se g m e n to de señ a l de a ud io co m p re n d e una pausa.
De a cu e rd o con un se g u n d o a sp ec to , se p ro p o rc io n a un a p a ra to p ara la e s tim a c ió n de ru ido de fo n d o en una seña l de aud io . El a p a ra to está co n fig u ra d o para o b te n e r al m e no s un p a rá m e tro en base a una p rim e ra g a n a n c ia de p red icc ió n lineal, c a lcu la d a com o el co c ie n te e n tre una e n e rg ía de un se g m e n to de señ a l de a ud io y una e n e rg ía de señ a l re s idu a l de una p rim e ra p red icc ió n linea l para el se g m e n to de señ a l de aud io; y, una se g u n d a g a n a n c ia de p red icc ió n linea l ca lcu la d a co m o el co c ie n te e n tre la e n e rg ía de señ a l re s idu a l de la p rim e ra p red icc ió n linea l y una e n e rg ía de señ a l re s idu a l de una s e g u n d a p red icc ió n linea l p a ra el se g m e n to de señ a l de aud io . El e s tim a d o r de ru ido de fo n d o e stá co n fig u ra d o a d ic io n a lm e n te para d e te rm in a r si el se g m e n to de señ a l de a ud io co m p re n d e una pau sa en base al m e no s al m e no s un p a rá m e tro ; y, para a c tu a liz a r una e s tim a c ió n de ru ido de fo n d o en base al se g m e n to de señ a l de a ud io si se d e te rm in a q ue el se g m e n to de señ a l de a ud io co m p re n d e una pausa .
De a cu e rd o con un te rc e r a sp ec to , se p ro p o rc io n a un có d e c de aud io , q ue co m p re n d e el a p a ra to de a cu e rd o con el se g u n d o a sp ec to .
De a cu e rd o con un cua rto a sp ec to , se p ro p o rc io n a un d isp o s itivo de c o m u n ica c ió n , que co m p re n d e el a p a ra to de a cu e rd o con el se g u n d o aspecto .
Breve descripción de los dibujos
Los a n te r io re s y o tros ob je tos , c a ra c te rís tica s y ve n ta ja s de la te c n o lo g ía d e sc rita en el p re se n te d o cu m e n to serán e v id e n te s a p a rtir de la s ig u ie n te d e sc rip c ió n m ás p a rtic u la r de re a liza c io n e s , com o se ilus tra en los d ib u jo s q ue se a co m p a ñ a n . Los d ib u jo s no e s tán n e ce sa ria m e n te a esca la , s ino q ue se pone el é n fa s is en ilu s tra r los p rin c ip io s de la te cn o lo g ía en el p re se n te d o cu m e n to d escrita .
La fig u ra 1 es un d ia g ra m a de b lo q u e s que ilus tra un d e te c to r de a c tiv id a d y una lóg ica de d e te rm in a c ió n del tra sp a so .
La fig u ra 2 es un d ia g ra m a de flu jo q ue ilus tra un m é to do para la e s tim a c ió n de l ru ido de fondo , de a cu e rd o con una re a liza c ió n a m o do de e jem p lo .
La fig u ra 3 es un d ia g ra m a de b lo q ue s q ue ilus tra el cá lcu lo de c a ra c te rís tica s re la c io n a d a s con las e ne rg ía s re s id u a le s para la p red icc ió n linea l de o rden 0 y 2 de a cu e rd o con una re a liza c ió n a m o do de e jem p lo .
La fig u ra 4 es un d ia g ra m a de b lo q ue s q ue ilus tra el cá lcu lo de c a ra c te rís tica s re la c io n a d a s con las e ne rg ía s re s id u a le s para la p red icc ió n linea l de o rden 2 y 16 de a cu e rd o con una re a liza c ió n a m o do de e jem p lo .
La fig u ra 5 es un d ia g ra m a de b lo q u e s q ue ilus tra el cá lcu lo de c a ra c te rís tica s re la c io n a d a s con una m e d id a de c e rca n ía e sp e c tra l de a cu e rd o con una re a liza c ió n e jem p la r.
La fig u ra 6 es un d ia g ra m a de b lo q u e s q ue ilus tra un e s tim a d o r de fo n d o de e n e rg ía de sub ba nd a .
La fig u ra 7 es un d ia g ra m a de flu jo que ilus tra una lóg ica de d e c is ió n de a c tu a liza c ió n de fo n d o de la so lu c ió n d e sc rita en el A n e xo A.
Las fig u ra s 8 -10 son d ia g ra m a s q ue ilus tra n el co m p o rta m ie n to de d ife re n te s p a rá m e tro s p re se n ta d o s en el p rese n te d o cu m e n to cu a n d o se ca lcu la n p ara una señ a l de a ud io q ue co m p re n d e d os rá fag as de voz.
Las fig u ra s 11 a -11 c y 12-13 son d ia g ra m a s de b lo q u e s que ilus tran d ife re n te s im p la n ta c io n e s de un e s tim a d o r de ru ido de fo n d o de a cu e rd o con re a liza c io n e s e je m p la res .
Las fig u ra s A 2 -A 9 en las p ág ina s de fig u ra s m a rca d a s com o "A n e xo A " e s tán a so c ia d a s con el A n e xo A, y se m e n c io n a n en d ich o A n e xo A con el n ú m e ro que s igue a la le tra "A ", es dec ir, 2-9.
Descripción detallada
La so lu c ió n d e sc rita en el p re se n te d o cu m e n to se re fie re a la e s tim a c ió n de ru ido de fon do en se ñ a le s de aud io . En el d e te c to r de a c tiv id a d g e n e ra liza d o ilu s tra d o en la fig u ra 1, la fu n c ió n de e s tim a r el ru ido de fo n d o la re a liza el b lo q ue d e n o m in a d o "e s tim a d o r de fon do ". A lg u n a s re a liza c io n e s de la so lu c ió n d e sc rita en el p re se n te d o cu m e n to p ueden v e rse en re lac ión con s o lu c io n e s d e sc rita s a n te r io rm e n te en W O 2011 /049514 , W O 2011 /049515 , y ta m b ié n en el A n e xo A (A p é n d ic e A ). La so lu c ió n d e sc rita en el p re se n te d o cu m e n to se co m p a ra rá con las im p la n ta c io n e s de e s ta s so lu c io n e s d e sc rita s a n te rio rm e n te . A u n q u e las so lu c io n e s d e sc rita s en los d o cu m e n to s W O 2011 /049514 , W O 2011 /049515 y el A n e xo A son b u e n a s so lu c io ne s , la so lu c ió n p re se n ta d a en el p re se n te d o cu m e n to to d a v ía tie n e ve n ta ja s en re lac ió n con e s ta s so lu c io ne s . P o r e je m p lo , la so lu c ió n p re se n ta d a en el p re se n te d o cu m e n to es inc lu so m ás a d e cu a d a en su se g u im ie n to de l ru ido de fondo .
El re n d im ie n to de un V A D d e p e n d e de la ca p a c id a d del e s tim a d o r de ru ido de fo n d o p ara re a liz a r un se g u im ie n to de las c a ra c te rís tica s de l fon do - en p a rtic u la r cu a n d o se tra ta de fo n d o s no e s ta c io n a ria s . C on un m e jo r seg u im ie n to , es p os ib le h a ce r que el V A D sea m ás e fic ie n te sin a u m e n ta r el r iesgo de re corte de voz.
Un p ro b le m a con los m é to d o s de e s tim a c ió n de ru ido a c tu a le s es q ue para c o n s e g u ir un buen se g u im ie n to de l ru ido de fo n d o en ba ja S N R , se n eces ita un d e te c to r de pau sa fiab le . P ara vo z só lo de e n trada , es p os ib le u tiliz a r la ta sa s ilá b ica o el h echo de que una p e rso n a no p ue de h a b la r to d o el t ie m p o para e n c o n tra r las p au sa s en el hab la. T a les so lu c io n e s p od rían im p lica r q ue d e sp u é s de un tie m p o su fic ie n te de no h a ce r a c tu a liza c io n e s de fondo , los re qu is ito s para la d e te cc ió n de pau sa son "re la ja d o s ", de ta l m a n e ra q ue es m ás p ro b a b le d e te c ta r una p ausa en el hab la. Esto p e rm ite re s p o n d e r a ca m b io s a b ru p to s en las ca ra c te rís tica s o en el n ive l de ru ido . A lg u n o s e je m p lo s de ta le s lóg icas de re cu p e ra c ió n de ru ido son: 1) C o m o las d e c la ra c io n e s de vo z co n tie n e n se g m e n to s con a lta co rre lac ión , es n o rm a lm e n te se g u ro a su m ir q ue h ay una p ausa en el h ab la d e sp u é s de un n ú m e ro s u fic ie n te de tra m a s sin co rre lac ión . 2 ) C u a n d o la re lac ió n señ a l/ru ido , S N R > 0, la e n e rg ía de l h ab la es m ás a lta que el ru ido de fondo , p o r lo q ue si la e n e rg ía de tra m a e stá ce rca de la e n e rg ía m ín im a d u ra n te un tie m p o m ás largo, p o r e je m p lo , 1-5 seg un do s , ta m b ié n es seg u ro a su m e n q ue uno e stá en una p au sa de voz. Si b ien las té c n ica s a n te r io re s fu n c io n a n b ien con la e n tra d a só lo de voz, no son s u fic ie n te s cu a n d o la m ú s ica se co n s id e ra una e n tra d a activa . En la m ú s ica puede h a b e r s e g m e n to s la rgos con ba ja co rre la c ió n que sin e m b a rg o son m úsica . A d e m á s, la d in á m ica de la e n e rg ía en la m ú s ica ta m b ié n p uede a c tiv a r una d e te cc ió n de p au sa fa lsa , lo q ue p uede d a r lu g a r a a c tu a liza c io n e s e rró n e a s no d e se a d a s de la e s tim a c ió n del ru ido de fondo .
Ide a lm e n te , una fu n c ió n inve rsa de un d e te c to r de ac tiv ida d , o lo q ue se lla m a ría un "d e te c to r de o cu rre n c ia de pausa", se ría n ece sa rio q ue co n tro la ra la e s tim a c ió n de ru ido . E s to g a ra n tiza ría que la a c tu a liza c ió n de las c a ra c te rís tica s de ru ido de fo n d o se h aga só lo cu a n d o no haya una señ a l a c tiva en la tra m a actua l. S in em bargo , co m o se ind icó a n te rio rm e n te , no es una ta re a fá c il d e te rm in a r si un se g m e n to de señ a l de a ud io co m p re n d e una señ a l a c tiva o no.
T ra d ic io n a lm e n te , cu a n d o se sab ía que la señ a l a c tiva era una se ñ a l de voz, el d e te c to r de a c tiv id a d se llam ab a d e te c to r de a c tiv id a d de vo z (V A D ). El té rm in o V A D para d e te c to re s de a c tiv id a d a m e n u d o se usa ta m b ié n cua nd o la señ a l de e n tra d a p uede c o m p re n d e r m úsica . S in em ba rg o , en los có d e cs m o de rn os , ta m b ié n es com ú n re fe rirse al d e te c to r de a c tiv id a d com o un d e te c to r de a c tiv id a d de so n id o (S A D ) cu a n d o ta m b ié n se d e te c ta m ú s ica com o señ a l activa .
El e s tim a d o r de fo n d o ilu s tra d o en la fig u ra 1 u tiliza re tro a lim e n ta c ió n d esde el d e te c to r p rim a rio y /o el b lo q ue de tra sp a s o para lo ca liza r se g m e n to s de se ñ a l de a ud io ina c tivo s . A l d e s a rro lla r la te c n o lo g ía d e sc rita en el p rese n te d o cu m e n to , ha s ido un d eseo q u ita r, o al m enos reduc ir, la d e p e n d e n c ia de ta l re tro a lim e n ta c ió n . P o r lo tan to , para la e s tim a c ió n de fo n d o d e sc rita en el p re se n te d ocum e n to , el in v e n to r ha id e n tifica d o q ue es im p o rta n te p od e r e n c o n tra r ca ra c te rís tica s fia b le s p ara id e n tif ic a r los rasgos de las se ñ a le s de fo n d o cu a n d o só lo e stá d isp o n ib le una señ a l de e n tra d a con una m e zc la d e sco n o c id a de señ a l a c tiva y de fondo . El in ve n to r se ha d ado cue n ta a d ic io n a lm e n te de que no se p ue de a su m ir que la señ a l de e n tra d a co m ie n ce con un se g m e n to de ru ido, o inc lu so q ue la señ a l de e n tra d a sea una vo z m e zc la d a con ru ido, ya q ue p uede se r q ue la señ a l a c tiva sea m úsica .
Un a sp e c to es que inc lu so a u n q u e de la tra m a a c tu a l p uede te n e r el m ism o n ive l de e n e rg ía que la e s tim a c ió n de ru ido actua l, las c a ra c te rís tica s de fre cu e n c ia p ue de n se r m u y d ife re n te s , lo q ue hace in d e se a b le re a liz a r una a c tu a liza c ió n de la e s tim a c ió n de ru ido u sa nd o la tra m a actua l. L a a c tu a liza c ió n de ru ido de fon do re la tiva de la ca ra c te rís tica de ce rca n ía in tro d u c id a se p uede u tiliz a r p a ra im p e d ir a c tu a liza c io n e s en e s to s casos.
A d e m á s, d u ra n te la in ic ia liza c ió n es d e se a b le p e rm itir q ue la e s tim a c ió n de ru ido se in ic ie tan p ron to co m o sea pos ib le , e v ita n d o d e c is io n e s e q u ivo ca d a s , ya q ue e sto p od ría p o te n c ia lm e n te re s u lta r en el re co rte de l S A D si la a c tu a liza c ió n de ru ido de fon do se hace con co n te n id o activo . El uso de una ve rs ió n e sp e c ífica de in ic ia liza c ió n de la ca ra c te rís tica de ce rca n ía d u ra n te la in ic ia liza c ió n p ue de re s o lv e r e ste p rob lem a , al m e no s en parte .
La so lu c ió n d e sc rita en el p re se n te d o cu m e n to se re fie re a un m é to do para la e s tim a c ió n de ru ido de fondo , en p a rticu la r, a un m é to do para d e te c ta r p au sa s en una señ a l de a ud io q ue rinde b ien en s itu a c io n e s de S N R d ifíc iles. La so lu c ió n se d e sc rib irá en a d e la n te con re fe re n c ia a las fig u ra s 2-5.
En el cam p o de la co d ifica c ió n de voz, es com ú n el uso de la d e n o m in a d a p re d icc ió n linea l p a ra a n a liza r la fo rm a e sp e c tra l de una señ a l de e n trada . El a n á lis is se h ace típ ic a m e n te dos v e c e s p o r tra m a , y para m e jo ra r la p rec is ión te m p o ra l los re su lta d o s se in te rp o la n d e sp u é s de ta l m a n e ra q ue h ay un filtro g e n e ra d o para cad a b lo q ue de 5 m s de la señ a l de entrada .
La p red icc ió n linea l es una o pe ra c ió n m a te m á tica , d o n d e los va lo re s fu tu ro s de una señ a l d isc re ta en el t ie m p o se e s tim a n com o una fu n c ió n linea l de m u e s tra s a n te rio res . En el p ro ce sa m ie n to de se ñ a le s d ig ita le s, la p red icc ió n linea l a m e nu do se d e n o m in a co d ifica c ió n p re d ic tiva line a l (L P C ) y, de e ste m odo, p uede v e rse com o un su b co n ju n to de la te o ría de filtros . En la p red icc ió n linea l, en un co d ific a d o r de voz, se a p lica un filtro A (z ) de p red icc ió n linea l a una señ a l de vo z de e n tra da . A (z ) es un filtro to ta lm e n te ce ro que, cu a n d o se a p lica a la señ a l de e n tra da , e lim in a la
re d u n d a n c ia q ue se p uede m o d e la r u sa nd o el filtro A (z ) de la se ñ a l de e n tra da . P o r lo tan to , la señ a l de sa lid a del filtro tie n e una e n e rg ía m e n o r q ue la señ a l de e n tra d a cu a n d o el filtro tie n e é x ito al m o d e la r a lgún a sp e c to o a lg u n o s a sp e c to s de la señ a l de entrada . E s ta señ a l de sa lid a se d e n o m in a "e l re s idu a l", " la e n e rg ía re s id u a l" o "la seña l res idua l". T a le s filtro s de p red icc ió n linea l, a lte rn a tiva m e n te d e n o m in a d o s filtro s re s idu a le s, p ue de n s e r de d ife re n te o rde n de m o de lo con d ife re n te s n ú m e ro s de co e fic ie n te s de filtro . P o r e je m p lo , con el fin de m o d e la r p ro p ia m e n te el h ab la , p ue de q ue se re qu ie ra un filtro de p red icc ió n linea l de o rde n 16 de l m ode lo . D e e ste m odo, en un co d ific a d o r de voz, se p uede u sa r un filtro A (z ) de p red icc ió n linea l de o rde n 16 de m ode lo .
El in ve n to r se ha d ad o cue n ta de que las c a ra c te rís tica s re la c io n a d a s con la p red icc ió n linea l se p ueden u tiliza r para d e te c ta r p au sa s en se ñ a le s de a ud io en un in te rva lo de S N R de 20 dB a 10 dB o p o s ib le m e n te de 5 dB. De a cu e rd o con re a liza c io n e s de la so lu c ió n d e sc rita en el p re se n te d o cu m e n to , una re lac ió n e n tre e n e rg ía s re s id u a le s para d ife re n te s ó rd e n e s de m o de lo para una se ñ a l de a ud io se u tiliza para d e te c ta r p a u sa s en la se ñ a l de aud io . La re lac ió n u tilizad a es el co c ie n te e n tre la e n e rg ía re s idu a l de un o rden de m o de lo in fe rio r y un o rde n de m o de lo sup erio r. El co c ie n te e n tre e n e rg ía s re s id u a le s p uede d e n o m in a rse "g a n a n c ia de p red icc ió n linea l", ya que es un in d ica d o r de cuá n ta e n e rg ía de señ a l ha p od ido m o de la r, o e lim ina r, el filtro de p red icc ió n linea l e n tre un o rden de m o de lo y o tro o rden de m ode lo .
La e n e rg ía re s idu a l d e p e n d e rá de l o rden M de l m o d e lo del filtro A (z ) de p re d icc ió n linea l. U na fo rm a com ún de ca lc u la r los co e fic ie n te s de filtro p ara un filtro de p red icc ió n linea l es el a lg o ritm o de L e v in so n -D u rb in . E ste a lg o ritm o es re curs ivo , y, en el p roce so de c re a r un filtro de p re d icc ió n A (z ) de o rde n M ta m b ié n , co m o un "su b p ro d u c to ", p ro d u c irá las e ne rg ía s re s idu a le s de los ó rd e n e s de m o d e lo s in fe rio re s. E s te h echo p uede u tiliza rse de a cu e rd o con re a liza c io n e s de la invenc ión .
La figu ra 2 m u es tra un m é to do g e n e ra l a m o do de e je m p lo para la e s tim a c ió n del ru ido de fo n d o en una señ a l de aud io. El m é to do p uede s e r re a liza do p o r un e s tim a d o r de ru ido de fondo . El m é to d o co m p re n d e o b te n e r 201 al m e no s un p a rá m e tro a so c ia d o con un se g m e n to de señ a l de aud io , com o una tra m a o p arte de una tra m a , en base a una p rim e ra g a n a n c ia de p red icc ió n linea l, c a lcu la d a com o el co c ie n te e n tre una se ñ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de o rden 0 y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de se g u n d o o rde n para el se g m e n to de señ a l de aud io; y a una se g u n d a g a n a n c ia de p red icc ió n linea l, ca lcu la d a com o el co c ie n te e n tre una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n line a l de se g u n d o o rde n y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de 16° o rde n p ara el se g m e n to de señ a l de aud io.
El m é to do co m p re n d e a d ic io n a lm e n te d e te rm in a r 202 si el se g m e n to de señ a l de a ud io co m p re n d e una pausa , es dec ir, si e stá libre de co n te n id o a c tivo ta l com o el h ab la y la m úsica , en base al m enos al al m e no s un p ará m e tro o b ten ido ; y, a c tu a liz a r 203 una e s tim a c ió n de ru ido de fo n d o en b ase al se g m e n to de señ a l de a ud io cu a n d o el se g m e n to de señ a l de a ud io co m p re n d a una pausa . E sto es, q ue el m é to do co m p re n d e la a c tu a liza c ió n de una e s tim a c ió n de ru ido de fon do cu a n d o se d e te c ta una p ausa en el se g m e n to de señ a l de a ud io en base al al m enos un p a rá m e tro obten ido .
Las g a n a n c ia s de p red icc ió n linea l p od rían d e sc rib irse com o una p rim e ra g a n a n c ia de p red icc ió n linea l re la c io n a d a con p a sa r de p red icc ió n linea l de o rden 0 a o rde n se g u n d o para el se g m e n to de señ a l de aud io ; y una se g u n d a g a n a n c ia de p red icc ió n linea l re la c io n a d a con p a s a r de p red icc ió n linea l de o rde n se g u n d o al o rden 16° para el se g m e n to de señ a l de aud io . A d e m á s, la o b te n c ió n de l al m e no s un p a rá m e tro p od ría d e sc rib irse a lte rn a tiva m e n te co m o la d e te rm in a c ió n , el cá lcu lo , la d e riva c ió n o la c re ac ión . Las e n e rg ía s re s id u a le s re la c io n a d a s con las p re d icc io n e s line a le s de o rden 0 , 2 y 16 de l m o de lo p ueden o b ten e rse , re c ib irse o re cu p e ra rse de, es dec ir, de a lg u na m a n e ra p ro p o rc io n a rse por, una parte del co d ific a d o r d on de la p red icc ió n linea l se rea liza com o p arte de un p roce so de co d ifica c ió n regu la r. P o r e llo , la co m p le jid a d co m p u ta c io n a l de la so lu c ió n d e sc rita en el p rese n te d o cu m e n to p uede re du c irse , en co m p a ra c ió n a cu a n d o las e n e rg ía s re s id u a le s n ece s ita n se r d e riva d a s e sp e c ia lm e n te para la e s tim a c ió n de ru ido de fondo .
El al m enos un p a rá m e tro o b te n id o so b re la base de las ca ra c te rís tica s de p re d icc ió n linea l p ueden p ro p o rc io n a r un a n á lis is in d e p e n d ie n te n ive l de la señ a l de e n tra d a q ue m e jo ra la d e c is ió n de si se d eb e re a liz a r una a c tu a liza c ió n de ru ido de fo n d o o no. La so lu c ió n es p a rticu la rm e n te útil en el ra ng o S N R de 10 a 20dB , d o n d e los S A D b a sa d o s en e n e rg ía tie n e n un re n d im ie n to lim ita d o d e b id o al ra ng o d in á m ico n orm a l de las se ñ a le s de voz.
En el p rese n te d ocum e n to , e n tre o tras, las va r ia b le s E (0 ),..., E (m ),..., E (M ) re p re se n ta n las e n e rg ía s re s id u a le s para los ó rd e n e s de m o de lo 0 a M de los filtros M+1 A m (z ). O b sé rve se q ue E (0 ) es s im p le m e n te la e n e rg ía de entrada . Un a n á lis is de señ a l de a ud io de a cu e rd o con la so lu c ió n d e sc rita en el p re se n te d o cu m e n to p ro p o rc io n a va ria s c a ra c te rís tica s o p a rá m e tro s n ue vo s al a n a liza r la g a n a n c ia de p red icc ió n linea l c a lcu la d a com o el co c ie n te e n tre una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de o rde n 0 y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de se g u n d o o rden , y la g a n a n c ia de p red icc ió n linea l c a lcu la d a co m o el co c ie n te e n tre una seña l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de se g u n d o o rden y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de o rden 16°. E sto es, que la g a n a n c ia de p red icc ió n linea l para p a s a r de p red icc ió n linea l de o rde n 0 a o rden se g u n d o es lo m ism o q ue la "e n e rg ía re s idu a l" E (0 ) (pa ra un o rden 0 de m o d e lo ) d iv id id a p o r la e n e rg ía re s idu a l E (2) (p a ra un se g u n d o o rden de m ode lo ). En co n se cu e n c ia , la g a n a n c ia de p red icc ió n linea l para p a s a r de p red icc ió n linea l de o rde n se g u n d o a o rde n 16° es la m ism a q ue la e n e rg ía re s idu a l E (2 ) (pa ra un se g u n d o o rde n de m o de lo )
d iv id id a p o r la e n e rg ía re s idu a l E (16 ) (pa ra un o rde n 16° de m o de lo ). Los e je m p lo s de p a rá m e tro s y la d e te rm in a c ió n de p a rá m e tro s en base a las g a n a n c ia s de p red icc ió n se d e sc rib irá n con m ás d e ta lle a co n tin u a c ió n . El al m e no s un p a rá m e tro o b te n id o de a cu e rd o con la re a liza c ió n g e n e ra l d e sc rita a n te r io rm e n te p ue de fo rm a r p arte de un c rite r io de d ec is ió n u tilizad o para e va lu a r, ya se a c tu a lice o no la e s tim a c ió n del ru ido de fondo .
C on el fin de m e jo ra r una e s ta b ilid a d a la rgo p lazo de l al m enos un p a rá m e tro o rasgo, se p ue de c a lc u la r una ve rs ió n lim itad a de la g a n a n c ia de p re d icc io n e s . E s to es, la o b te n c ió n del al m e no s un p a rá m e tro p ue de c o m p re n d e r lim ita r las g a n a n c ia s de la p red icc ió n linea l, re la c io n a d a s con p a sa r de p red icc ió n linea l de o rden 0 a o rde n se g u n d o y de o rde n 2° a o rde n 16°, para to m a r va lo re s en un in te rva lo p red e fin ido . P o r e je m p lo , las g a n a n c ia s de p red icc ió n linea l p ueden lim ita rse a to m a r va lo re s e n tre 0 y 8, com o se ilustra , p o r e je m p lo , en la Ec. 1 y la Ec. 6 m ás a de lan te .
La o b ten c ión de l al m e no s un p a rá m e tro p uede c o m p re n d e r a d ic io n a lm e n te la c re a c ió n de al m e no s una e s tim a c ió n a la rgo p lazo de cad a g an a n c ia p rim e ra y se g u n d a de p red icc ió n linea l, p o r e je m p lo , p o r m e d io de f iltra d o de paso bajo. T a l al m e no s una e s tim a c ió n a la rgo p lazo se b a sa ría d e sp u é s en las g a n a n c ia s de p red icc ió n linea l c o rre sp o n d ie n te s a so c ia d a s con al m e no s un se g m e n to de señ a l de a ud io a n te rio r. P od ría s e r c re a d a m ás de una e s tim a c ió n a la rgo p lazo, si, p o r e je m p lo , una s e s tim a c io n e s a la rgo p lazo p rim e ra y seg un da , re la c io n a d a s con una g a n a n c ia de p red icc ió n linea l, re acc io n a n de m a ne ra d ife re n te a los ca m b io s en la señ a l de aud io . P o r e je m p lo , una p rim e ra e s tim a c ió n a la rgo p lazo p uede re a cc io n a r m á s rá p id o a los ca m b io s q u e una se g u n d a e s tim a c ió n a la rgo p lazo. U n a ta l p rim e ra e s tim a c ió n a la rgo p lazo se p ue de d e n o ta r a lte rn a tiva m e n te com o una e s tim a c ió n a corto p lazo.
La o b te n c ió n de l al m e no s un p a rá m e tro p uede c o m p re n d e r a d ic io n a lm e n te la d e te rm in a c ió n de una d ife re nc ia , ta l co m o la d ife re n c ia a b so lu ta G d _ 0 _ 2 (Ec. 3 ) d e sc rita m ás a de lan te , e n tre una de las g a n a n c ia s de p red icc ió n lineal, a so c ia d a con el se g m e n to de señ a l de aud io , y una e s tim a c ió n a la rgo p lazo de d ich a g a n a n c ia de p red icc ió n lineal. A lte rn a tiv a m e n te o a d ic io n a lm e n te , se pod ría d e te rm in a r una d ife re n c ia e n tre d os e s tim a c io n e s a la rgo p lazo, ta l co m o en la Ec. 9 de m ás a de lan te . El té rm in o “d e te rm in a c ió n ” pod ría in te rca m b ia rse a lte rn a tiva m e n te p o r el de cá lcu lo , c re ac ión o d e riva c ió n .
La o b ten c ión del al m e no s un p a rá m e tro puede , co m o se ind icó a n te rio rm e n te , c o m p re n d e r f iltra d o de paso ba jo de las g a n a n c ia s de p red icc ió n linea l, d e rivá n d o se , de e ste m odo, de las e s tim a c io n e s a la rgo p lazo, e n tre las cua les, a lg u na s, a lte rn a tiva m e n te , p ueden e s ta r d e n o ta d a s com o e s tim a c io n e s a co rto p lazo, d e p e n d ie n d o de cu á n to s se g m e n to s se to m e n en co n s id e ra c ió n en la e s tim a c ió n . Los co e fic ie n te s de filtro de al m e no s un filtro de paso bajo p ueden d e p e n d e r de una re lac ión e n tre una g a n a n c ia de p red icc ió n linea l, re lac io na da , p o r e je m p lo , só lo con el se g m e n to de señ a l de a ud io a c tua l, y un p rom ed io , d en o tad o , p o r e je m p lo , com o p ro m e d io a la rgo p lazo o e s tim a c ió n a la rgo p lazo, de una g a n a n c ia de p red icc ió n co rre sp o n d ie n te o b te n id a en b ase a una p lu ra lida d de se g m e n to s de señ a l de a ud io an te rio res . E sto p ue de re a liza rse p ara c rear, p o r e je m p lo , a d ic ion a lm e n te , e s tim a c io n e s a la rgo p lazo de las g a n a n c ia s de p red icc ió n . El f iltra d o de paso ba jo se p uede re a liza r en dos o m ás pasos, d on de cad a p aso p uede d a r com o re su lta d o un p a rá m e tro , o una e s tim a c ió n , q ue se u tiliza para to m a r una d ec is ió n con re sp e c to a la p re se n c ia de una p au sa en el se g m e n to de se ñ a l de aud io . P o r e je m p lo , pueden a n a liza rse o co m p a ra rse d ife re n te s e s tim a c io n e s a la rgo p lazo (ta les com o G 1 _ 0 _ 2 (Ec. 2 ) y G a d _ 0 _ 2 (Ec. 4), y/o, G 1 _ 2 _ 16 (Ec. 7), G 2 _ 2 _ 16 (Ec. 8) y G a d _ 2 _ 16 (Ec. 10) d e sc rita s m ás a d e la n te ) que re fle ja n los ca m b io s en la seña l de a ud io de d ife re n te s m aneras, para d e te c ta r una p ausa en un se g m e n to de se ñ a l de a ud io actua l.
La d e te rm in a c ió n 202 de si el se g m e n to de se ñ a l de a ud io co m p re n d e o no una p au sa p ue de a d ic io n a lm e n te e s ta r b asad o en una m e d id a de la ce rca n ía e sp e c tra l a so c ia d a con el se g m e n to de se ñ a l de aud io . La m e d id a de ce rca n ía e sp e c tra l ind ica rá lo ce rca q ue e sté el n ive l de e n e rg ía "p o r b anda de fre cu e n c ia ", del se g m e n to de señ a l de a ud io p ro ce sa d o a c tu a lm e n te , del n ive l de e n e rg ía "p o r b anda de fre cu e n c ia " de la e s tim a c ió n de ru ido de fo n d o actua l, p o r e je m p lo , con un v a lo r in ic ia l o una e s tim a c ió n q ue es el re su lta d o de una a c tu a liza c ió n a n te r io r re a liza d a a n tes del a n á lis is de l se g m e n to de señ a l de a ud io actua l. A co n tin u a c ió n se m u es tra un e je m p lo de d e te rm in a c ió n o d e riva c ió n de una m e d id a de c e rca n ía e sp e c tra l en las e cu a c io n e s Ec. 12 y Ec. 13. La m e d id a de ce rca n ía e sp e c tra l se puede u tiliz a r para im p e d ir a c tu a liza c io n e s de ru ido b a sa d a s en tra m a s de ba ja e n e rg ía con una g ran d ife re n c ia en las c a ra c te rís tica s de fre cu e n c ia , en co m p a ra c ió n con la e s tim a c ió n de fo n d o actua l. P o r e je m p lo , la e n e rg ía p rom ed io sob re las b an da s de fre cu e n c ia p od ría s e r ig u a lm e n te ba ja para el se g m e n to de se ñ a l a c tu a l y la e s tim a c ió n de ru ido de fo n d o actua l, pero la m e d id a de c e rca n ía e sp e c tra l re ve la ría si la e n e rg ía se d is trib u ye de m a ne ra d ife re n te sob re las b a n da s de fre cu e n c ia . T a l d ife re n c ia en la d is trib u c ió n de e n e rg ía p od ría s u g e rir q ue el se g m e n to de señ a l actua l, p o r e je m p lo , la tra m a , p uede s e r co n te n id o a c tivo de ba jo n ive l, y una a c tu a liza c ió n de la e s tim a c ió n de l ru ido de fo n d o en base a la tra m a podría , p o r e je m p lo , im p e d ir la d e te cc ió n de tra m a s fu tu ra s con co n te n id o s im ila r. C om o la S N R de su b b a n d a es m ás se n s ib le a los a u m e n to s de e n e rg ía u sa nd o inc lu so co n te n id o a c tivo de ba jo n ive l, puede re su lta r una g ran a c tu a liza c ió n de la e s tim a c ió n de fo n d o si e se ra ng o de fre cu e n c ia p a rtic u la r no e x is te en el ru ido de fondo , ta l com o la p arte de a lta fre cu e n c ia de vo z co m p a ra d a con ru ido de a u to m ó v il de ba ja fre cu e n c ia . D espu és de ta l a c tu a liza c ió n , se rá m ás d ifíc il d e te c ta r la voz.
C om o ya se ha su g e rid o a n te rio rm e n te , la m e d id a de c e rca n ía e sp e c tra l p uede se r d e riva da , o b te n id a o ca lcu la d a en base a las e n e rg ía s para un co n ju n to de b an da s de fre cu e n c ia , a lte rn a tiva m e n te d e n o ta d a s su b b a n d a s , del se g m e n to de señ a l de a ud io a n a liza d o a c tu a lm e n te y las e s tim a c io n e s de ru ido de fon do a c tu a le s c o rre sp o n d ie n te s al co n ju n to de b an da s de fre cu e n c ia . E s to ta m b ié n se e je m p lifica rá y d e sc rib irá a d ic io n a lm e n te con m ás d e ta lle m ás
a de lan te , y se ilus tra en la fig u ra 5.
C om o se ind icó a n te rio rm e n te , la m e d id a de c e rca n ía e sp e c tra l se p uede d e riv a r o b te n e r o c a lc u la r m e d ia n te la co m p a ra c ió n de un n ive l de e n e rg ía de b anda a c tu a l p o r fre cu e n c ia del se g m e n to de señ a l de a ud io a c tu a lm e n te p ro ce sa d o con un n ive l de e n e rg ía de b anda p o r fre cu e n c ia de una e s tim a c ió n de ru ido de fo n d o actua l. S in e m ba rg o , para em pe za r, es dec ir, d u ra n te un p rim e r p e río do o un p rim e r n úm e ro de tra m a s al c o m ie n zo de l a ná lis is de una señ a l de aud io, p ue de q ue no haya una e s tim a c ió n fiab le del ru ido de fondo , p o r e je m p lo , d ado q ue to d a v ía no se ha re a liza d o una a c tu a liza c ió n fia b le de una e s tim a c ió n de l ru ido de fondo . P o r lo tan to , se p uede a p lic a r un p e río do de in ic ia liza c ió n para d e te rm in a r el v a lo r de c e rca n ía e sp ec tra l. D u ra n te ta l p e río do de in ic ia liza c ión , los n ive les de e n e rg ía de b anda p o r fre cu e n c ia del se g m e n to de señ a l de a ud io a c tu a l serán , en cam b io , co m p a ra d o s con una e s tim a c ió n de fo n d o in ic ia l, q ue p uede ser, p o r e je m p lo un v a lo r co n s ta n te co n fig u ra b le . En los e je m p lo s m ás aba jo , e sta e s tim a c ió n in ic ia l de ru ido de fo n d o se e s ta b le ce en el v a lo r de e je m p lo E min= 0 ,0035. D e sp u é s del p e río do de in ic ia liza c ión , el p ro ce d im ie n to p uede co n m u ta rse al fu n c io n a m ie n to n orm a l y c o m p a ra r el n ive l de e n e rg ía de b anda a c tu a l p o r fre cu e n c ia de l se g m e n to de señ a l de a ud io p ro ce sa d o a c tu a lm e n te con un n ive l de e n e rg ía de b anda p o r fre cu e n c ia de una e s tim a c ió n de ru ido de fo n d o actua l. La lon g itu d de l p e río do de in ic ia liza c ió n se p uede c o n fig u ra r p o r e je m p lo , en base a s im u la c io n e s o p ru e b a s q ue ind iq ue n el t ie m p o n e ce sa rio a n tes de que se p ro p o rc io n e una e s tim a c ió n , p o r e je m p lo fia b le y /o sa tis fa c to ria , del ru ido de fondo . Un e je m p lo u sado m ás a de lan te , la co m p a ra c ió n con una e s tim a c ió n in ic ia l de ru ido de fo n d o (e n lu g a r de con una e s tim a c ió n "re a l" d e riva d a en base a la señ a l de a ud io a c tu a l) se re a liza d u ra n te las p rim e ra s 150 tra m as .
El al m e no s un p a rá m e tro p uede se r el p a rá m e tro e je m p lifica d o en có d ig o m ás a de lan te , d e n o ta d o N E W _ P O S _ B G , y /o uno o m ás p e rte n e c ie n te /s a la p lu ra lid a d de p a rá m e tro s q ue se d e sc rib e n m ás a de lan te , que co n d u ce /n a la fo rm a c ió n de un c rite r io de d ec is ió n o de un co m p o n e n te de un c rite r io de d e c is ió n para la d e te cc ió n de pausa . En o tra s p a la bra s , el al m e no s un p a rá m e tro , o ca ra c te rís tica , o b te n id o 201 en b ase a las g a n a n c ia s de p red icc ió n linea l p ue de s e r uno o m ás de los p a rá m e tro s d e sc rito s a con tin u a c ió n , p uede c o m p re n d e r uno o m ás de los p a rá m e tro s d e sc rito s a co n tin u a c ió n y /o e s ta r b asad o en uno o m ás de los p a rá m e tro s d e sc rito s a con tin u a c ió n .
Características o parámetros relacionados con las energías residuales E(0) y E(2)
La figu ra 3 m u es tra un d ia g ra m a de b lo q u e s de v is ió n g e n e ra l de la d e riva c ió n de c a ra c te rís tica s o p a rá m e tro s re la c io n a d o s con E (0 ) y E (2), de a cu e rd o con un e je m p lo de re a liza c ió n . C om o se p uede v e r en la figu ra 3, la g a n a n c ia de p red icc ió n se ca lcu la p rim e ro com o E (0 )/E (2 ). U na ve rs ió n lim ita d a de la g a n a n c ia de p re d icc io n e s se ca lcu la com o
G _ 0 _ 2 = m a x (0 ,m in (8 ,E (0 )/E (2 ))) (Ec. 1)
d o n d e E (0 ) re p re se n ta la e n e rg ía de la señ a l de e n tra d a y E (2 ) es la e n e rg ía re s idu a l d e sp u é s de una p red icc ió n linea l de se g u n d o orden . La e xp re s ió n en la Ec. 1 lim ita la g a n a n c ia de p red icc ió n a un in te rva lo e n tre 0 y 8. La g a n a n c ia de p red icc ió n en ca so s n o rm a le s d e b e ría s e r m a yo r q ue cero, p e ro p ue de n o cu rr ir a n o m a lía s , p o r e jem p lo , para va lo re s ce rca n o s a ce ro y, p o r lo tan to , p uede se r útil una lim itac ió n "m a y o r q ue ce ro " (0<). La razón para lim ita r la g a n a n c ia de p red icc ió n a un m á x im o de 8 es que, para los fine s de la so lu c ió n d e sc rita en el p re se n te d ocum e n to , es su fic ie n te s a b e r q ue la g a n a n c ia de p red icc ió n es a p ro x im a d a m e n te 8 o m a yo r q ue 8, lo q ue ind ica una g a n a n c ia de p red icc ió n linea l s ign ifica tiva . C ab e s e ñ a la r que cu a n d o no haya d ife re n c ia e n tre la e n e rg ía re s idu a l e n tre dos ó rd e n e s de m o de lo d ife re n te s , la g a n a n c ia de p red icc ió n linea l se rá 1, lo q ue ind ica que el filtro de un o rde n de m o de lo su p e rio r no tie n e m ás é x ito en el m o d e la d o de la señ a l de a ud io q ue el filtro de un m o de lo de o rde n in ferio r. A d e m á s, si la g a n a n c ia G _ 0 _ 2 de p red icc ió n to m a ra va lo re s d e m a s ia d o g ra n d e s en las s ig u ie n te s exp re s io ne s , pod ría a rr ie s g a r la e s ta b ilid a d de los p a rá m e tro s d e riva do s. N ó tese q ue 8 es só lo un v a lo r de e je m p lo q ue se ha s e le cc io n a d o para una re a liza c ió n e sp e c ífica . El p a rá m e tro G _ 0 _ 2 se p od ría d e n o ta r a lte rn a tiva m e n te , p o r e je m p lo , e p sP _ 0 _ 2 o g rp_0_2.
La g a n a n c ia de p red icc ió n lim itad a se filtra d e sp u é s en d os p asos para c re a r e s tim a c io n e s a la rgo p lazo de esta g an an c ia . El p rim e r filtra d o de p aso ba jo y, de e ste m odo, la d e riva c ió n de una p rim e ra ca ra c te rís tica o p rim e r p a rá m e tro a la rgo p lazo se re a liza co m o :
G 1 _ 0 _ 2 = 0 ,85 G 1 _ 0 _ 2 0 ,15 G _ 0_2 , (Ec. 2)
d o n d e el se g u n d o "G 1 _ 0 _ 2 " en la e xp re s ió n d ebe lee rse co m o el v a lo r de un se g m e n to de se ñ a l de a ud io an terio r. E s te p a rá m e tro se rá típ ica m e n te o b ien 0 o b ien 8, d e p e n d ie n d o del tip o de ru ido de fo n d o en la e n tra d a una v e z que haya un se g m e n to de e n tra d a de só lo fondo . El p a rá m e tro G 1 _ 0 _ 2 se p od ría d e n o ta r a lte rn a tiva m e n te , p o r e jem p lo , e p s P _ 0 _ 2 _ lp o g LP_0_2. Se p uede c re a r o c a lc u la r d e sp u é s o tra ca ra c te rís tica o p a rá m e tro u tiliza n d o la d ife re nc ia e n tre la p rim e ra ca ra c te rís tica G 1 _ 0 _ 2 a la rgo p lazo y la tra m a m e d ia n te g a n a n c ia G _ 0 _ 2 de p re d icc ió n lim ita d a por tra m a , de a cu e rd o con:
G d _ 0 _ 2 = a b s (G 1 _ 0 _ 2 -G _ 0 _ 2 ) (Ec. 3)
E sto le d ará una ind ica c ió n de la g a n a n c ia de p red icc ió n de la tra m a a ctu a l, en co m p a ra c ió n con la e s tim a c ió n a
la rgo p lazo de la g a n a n c ia de p red icc ió n . El p a rá m e tro G d _ 0 _ 2 ta m b ié n se p ue de den o ta r, a lte rn a tiva m e n te , p o r e je m p lo , e p sP _ 0 _ 2 _ a d o gad_0_2. En la fig u ra 3, e sta d ife re n c ia se u tiliza para c re a r una se g u n d a e s tim a c ió n a largo p lazo o ca ra c te rís tica G a d _0 _2. E sto se h ace u sa nd o un filtro q ue a p lica d ife re n te s co e fic ie n te s de filtro d e p e n d ie n d o de si la d ife re n c ia a la rgo p lazo es m a yo r o m e n o r q ue la d ife re n c ia p rom ed io e s tim a d a a c tu a lm e n te de a cu e rd o con:
G a d _ 0 _ 2 = (1 -a ) G a d _ 0 _ 2 a G d _ 0 _ 2 (Ec. 4)
donde , si G d _ 0 _ 2 < G a d _ 0 _ 2 e n to n ce s a = 0,1 m ás a = 0,2
d o n d e el se g u n d o "G a d _ 0 _ 2 " en la e xp re s ió n d ebe lee rse com o el v a lo r de un se g m e n to de se ñ a l de a ud io an te rio r. El p a rá m e tro G a d _ 0 _ 2 se p uede d en o ta r, a lte rn a tiva m e n te , p o r e je m p lo , G lp _ 0_ 2 , e p s P _ 0 _ 2 _ a d _ lp o g ad_0_2. C on el fin de e v ita r que el f iltra d o e n m a sca re d ife re n c ia s o ca s io n a le s de tra m a a lta , se p uede d e riv a r o tro p a rá m e tro , q ue no se m u es tra en la figu ra . Es dec ir, que la se g u n d a ca ra c te rís tica a la rgo p lazo G a d _ 0 _ 2 se p ue de c o m b in a r con la d ife re n c ia de tra m a con el fin de im p e d ir d ich o e n m a sca ra m ie n to . E s te p a rá m e tro p uede d e riva rse to m a n d o el m á x im o de la ve rs ió n G d _ 0 _ 2 de tra m a y la ve rs ió n G a d _ 0 _ 2 a la rgo p lazo de la ca ra c te rís tica de g a n a n c ia de p red icc ió n , com o:
G m a x_ 0 _ 2 = m a x (G a d _ 0 _ 2 ,G d _ 0 _ 2 ) (Ec. 5)
El p a rá m e tro G m a x_ 0 _ 2 podría , a lte rn a tiva m e n te , d en o ta rse , p o r e je m p lo , e p s P _ 0 _ 2 _ a d _ lp _ m a x o g max_0_2.
Características o parámetros relacionados con las energías residuales E(2) y E(16)
La fig u ra 4 m u es tra un d ia g ra m a de b lo q u e s g e n e ra l de la d e riva c ió n de c a ra c te rís tica s o p a rá m e tro s re la c io n a d o s con E (2 ) y E (16), de a cu e rd o con una re a liza c ió n a m o do de e je m p lo . C om o se p uede v e r en la fig u ra 4, la g an a n c ia de p red icc ió n se ca lcu la p rim e ro com o E (2 )/E (16 ). Las c a ra c te rís tica s o p a rá m e tro s c re a d o s u tiliza n d o la d ife re n c ia o re lac ió n e n tre la e n e rg ía re s idu a l de 2 ° orde n y la e n e rg ía re s idu a l de 16° o rden se d e riva n de m a ne ra lig e ra m e n te d ife re n te a las d e sc rita s a n te r io rm e n te en re lac ió n con la re lac ión e n tre las e n e rg ía s re s id u a le s de 0° y 2° orden . En el p re se n te d o cu m e n to , ta m b ié n , una g a n a n c ia de p red icc ió n lim itad a se ca lcu la com o
G _ 2 _ 16 = m a x (0 ,m in (8 ,E (2 )/E (16 ))) (E c .- 6 )
d o n d e E (2 ) re p re se n ta la e n e rg ía re s idu a l d e sp u é s de una p red icc ió n linea l de s e g u n d o o rde n y E (16 ) re p re se n ta la e n e rg ía re s idu a l d e sp u é s de una p red icc ió n linea l de o rde n 16°. El p a rá m e tro G _ 2 _ 16 se p uede deno ta r, a lte rn a tiva m e n te , p o r e jem p lo , e p sP _ 2 _ 16 o g LP_2_16. E sta g a n a n c ia de p red icc ió n lim itad a se usa e n to n ce s para c re a r dos e s tim a c io n e s a la rgo p lazo de e sta g an an c ia : una en la que el c o e fic ie n te del filtro d ifie re si la e s tim a c ió n a la rgo p lazo se va o no a a um e n ta r, com o se m u e s tra en:
G 1 _ 2 _ 16 = (1 -a ) G 1 _ 2 _ 16 a G _ 2 _ 16 (E c .- 7)
d o n d e si G _ 2 _ 16 > G 1 _ 2 _ 16 e n to n ce s a = 0 ,2 m ás a = 0,03.
El p a rá m e tro G 1 _ 2 _ 16 podría , a lte rn a tiva m e n te , d en o ta rse , p o r e je m p lo , e p sP _ 2 _ 16 _ lp o g LP_2_16.
La se g u n d a e s tim a c ió n a la rgo p lazo u tiliza un co e fic ie n te de filtro co n s ta n te com o de a cu e rd o con:
G 2 _ 2 _ 16 = (1 -b ) G 2 _ 2 _ 16 b G _ 2 _16 , d o n d e b =0 ,02
El p a rá m e tro G 2 _ 2 _ 16 podría , a lte rn a tiva m e n te , d en o ta rse , p o r e je m p lo , e p sP _ 2 _ 16 _ lp 2 o g LP2_0_2.
P ara la m a yo ría de tip o s de se ñ a le s de fondo , ta n to G 1 _ 2 _ 16 co m o G 2 _ 2 _ 16 e sta rá ce rca de 0, p e ro te n d rá n d ife re n te s re sp u e s ta s al co n te n id o d on de se n e ce s ita la p red icc ió n linea l de o rde n 16°, que es típ ic a m e n te para vo z y o tro co n te n id o activo . La p rim e ra e s tim a c ió n a la rgo p lazo, G 1 _ 2_ 16 , se rá n o rm a lm e n te m ás a lta q ue la se g u n d a e s tim a c ió n a la rgo p lazo G 2 _ 2_ 16. E sta d ife re n c ia e n tre las c a ra c te rís tica s a la rgo p lazo se m ide de a cu e rd o con: G d _ 2 _ 16 = G 1 _ 2 _ 16 - G 2 _ 2 _ 16 (Ec. 9)
El p a rá m e tro G d _ 2 _ 16 podría , a lte rn a tiva m e n te , d e n o ta rse e p sP _ 2 _ 16 _ d lp o g ad_2_16.
G d _ 2 _ 16 p uede u sa rse e n to n ce s com o una e n tra d a a un filtro q ue c rea una te rce ra c a ra c te rís tica a la rgo p lazo de a cu e rd o con:
G a d _ 2 _ 16 = (1 -C ) G a d _ 2 _ 16 C G d _ 2 _ 16 (Ec. 10)
d o n d e si G d _ 2 _ 16 < G a d _ 2 _ 16 e n to n ce s c= 0 ,02 m ás c= 0 ,05
E ste filtro a p lica d ife re n te s co e fic ie n te s de filtro d e p e n d ie n d o de si la te rce ra señ a l a la rgo p lazo se va a u n m e n ta r o no. El p a rá m e tro G a d _ 2 _ 16 se p ue de d en o ta rse , a lte rn a tiva m e n te , p o r e je m p lo , e p sP _ 2 _ 16 _ d lp _ lp 2 o gad_2_16. T a m b ié n aquí, la señ a l a la rgo p lazo G a d _ 2 _ 16 p ue de co m b in a rse con la señ a l de e n tra d a de filtro G d _ 2 _ 16 para im p e d ir q ue el f iltra d o e n m a sca re e n tra d a s a lta s o ca s io n a le s para la tra m a actua l. El p a rá m e tro fin a l es e n to n ce s el m á x im o de la tra m a o se g m e n to y la ve rs ió n a la rgo p lazo de la ca ra c te rís tica .
G m a x _ 2 _ 16 = m a x(G a d _ 2 _ 16 , G d _ 2 _ 16 ) (Ec. 11)
El p a rá m e tro G m a x_ 2 _ 16 podría , a lte rn a tiva m e n te , d en o ta rse , p o r e je m p lo , e p s P _ 2 _ 16 _ d lp _ m a x o gmax_0_2
Medida de cercanía espectral/diferencia
La ca ra c te rís tica de ce rca n ía e sp e c tra l u tiliza el a n á lis is de fre cu e n c ia de la tra m a o se g m e n to de e n tra d a a c tu a l en el q ue la e n e rg ía de su b b a n d a se ca lcu la y se co m p a ra con la e s tim a c ió n de fo n d o de sub b a n d a . Se p ue de u sa r un p a rá m e tro o ca ra c te rís tica de c e rca n ía e sp e c tra l en co m b in a c ió n con un p a rá m e tro re la c io n a d o con las g a n a n c ia s de p red icc ió n linea l d e sc rita s a n te rio rm e n te , p o r e je m p lo , para a se g u ra rse de q ue el se g m e n to o la tra m a a c tu a l esté re la tiva m e n te cerca , o al m e no s no m u y le jos, de una e s tim a c ió n de fo n d o ante rio r.
La fig u ra 5 m u es tra un d ia g ra m a de b lo q u e s de l cá lcu lo de una m e d id a de d ife re n c ia o ce rca n ía e sp ec tra l. D uran te el p e río do de in ic ia liza c ión , p o r e je m p lo , las p rim e ra s 150 tra m a s , la co m p a ra c ió n se re a liza con una co n s ta n te co rre sp o n d ie n te a la e s tim a c ió n de fo n d o in ic ia l. D e sp u é s de la in ic ia liza c ión , se pasa al fu n c io n a m ie n to n orm a l y se co m p a ra con la e s tim a c ió n de fondo . O b sé rve se que, m ie n tra s que el a n á lis is e sp e c tra l p ro d u ce e n e rg ía s de su b b a n d a s para 20 sub ba nd as , a q u í el cá lcu lo de n o n s ta B só lo usa su b b a n d a s i = 2,... 16, ya q ue es p rin c ip a lm e n te en e s ta s b an da s d on de se u b ica la e n e rg ía de la voz. A q u í n o n s ta B re fle ja la no e s ta c io n a rie d a d .
E n to nce s, d u ra n te la in ic ia liza c ión , se ca lcu la n o n s ta B u sa nd o un E m in , que en el p re se n te d o cu m e n to se e s ta b le ce en E m in = 0 ,0035 co m o :
n on sta B = s u m (a b s (lo g (E c b (i)+ 1 )-|o g (E m in 1 ))) (Ec. 12)
d o n d e la sum a se hace sob re i = 2... 16.
E sto se hace para re d u c ir el e fe c to de los e rro re s de d e c is ió n en la e s tim a c ió n de l ru ido de fo n d o d u ra n te la in ic ia liza c ión . D espu és del p e río do de in ic ia liza c ión , el cá lcu lo se hace u tiliza n d o la e s tim a c ió n de ru ido de fon do a c tu a l de la su b b a n d a respectiva , de a cu e rd o co n :
n on sta B = s u m (a b s (lo g (E c b (i)+ 1 )- lo g (N c b (i)+ 1 ))) (Ec. 13)
d o n d e la sum a se hace sob re i = 2... 16
La a d ic ión de la co n s ta n te de 1 a ca d a e n e rg ía de su b b a n d a a n tes del lo g a ritm o re du ce la se n s ib ilid a d para la d ife re n c ia e sp e c tra l para tra m a s de ba ja e ne rg ía . El p a rá m e tro de n o n s ta B podría , a lte rn a tiva m e n te , d en o ta rse , p o r e je m p lo , n o _ s ta B o nonstatB.
Un d ia g ra m a de b lo q ue s que ilus tra un e je m p lo de re a liza c ió n de un e s tim a d o r de fo n d o se m u es tra en la fig u ra 6. La re a liza c ió n de la figu ra 6 co m p re n d e un b loque para e n tra m a d o 601 de e n tra da , que d iv id e la señ a l de a ud io de e n tra d a en tra m a s o se g m e n to s de lon g itu d a de cu a d a , p o r e je m p lo , de 5 -30 ms. La re a liza c ió n co m p re n d e a d ic io n a lm e n te un b loque para la e x tra cc ió n 602 de ca ra c te rís tica s q ue ca lcu la las ca ra c te rís tica s , ta m b ié n d e n o ta d a s p a rá m e tro s en el p re se n te d ocum e n to , p a ra cad a tra m a o se g m e n to de la se ñ a l de e n trada . La re a liza c ió n co m p re n d e a d ic io n a lm e n te un b lo q ue para lóg ica 603 de d e c is ió n de a c tu a liza c ió n , p a ra d e te rm in a r si una e s tim a c ió n de fon do p uede o no a c tu a liza rse en base a la señ a l en la tra m a actua l, es dec ir, si el se g m e n to de señ a l e stá lib re de co n te n id o a c tivo ta l com o vo z y m úsica . La re a liza c ió n co m p re n d e a d ic io n a lm e n te un a c tu a liza d o r 604 de fondo , para a c tu a liz a r la e s tim a c ió n de l ru ido de fo n d o cu a n d o la lóg ica de d ec is ió n de a c tu a liza c ió n ind ica q ue es a d e cu a d o h a ce r la a c tu a liza c ió n . En la re a liza c ió n ilus trada , se p ue de d e riv a r una e s tim a c ió n de ru ido de fo n d o p o r sub ba nd a , es dec ir, p a ra va r ia s b an da s de fre cu en c ia .
La so lu c ió n en el p re se n te d o cu m e n to d e sc rita p uede u tiliza rse p ara m e jo ra r una so lu c ió n a n te r io r p a ra la e s tim a c ió n de ru ido de fondo , q ue se d e sc rib e en el a ne xo A en el p re se n te d o cu m e n to , y ta m b ié n en el d o cu m e n to W O 2011 /049514. En a de lan te , la so lu c ió n d e sc rita en el p re se n te d o cu m e n to se d e sc rib irá en el co n te x to de esta so lu c ió n d e sc rita a n te rio rm e n te . Se dará n e je m p lo s de có d ig o de una im p la n ta c ió n de có d ig o de una re a liza c ió n de un e s tim a d o r de ru ido de fondo . En a de lan te , se d e sc rib e n d e ta lle s de im p la n ta c ió n re a le s para una re a liza c ió n de la inve nc ión en un c o d ific a d o r en b ase al G .718. E sta im p la n ta c ió n u tiliza m u ch as de las ca ra c te rís tic a s de e n e rg ía d e sc rita s en la so lu c ió n en el A n e xo A y el d o cu m e n to W O 2011 /049514. P ara d e ta lle s a d ic io n a le s a los p re se n ta d o s
en a de lan te , co n su lte el A n e xo A y el d o cu m e n to W O 2011 /049514.
Las s ig u ie n te s c a ra c te rís tica s de e n e rg ía se d e fin e n en el d o cu m e n to W O 2011 /049514:
Etot ;
Etot_l_lp;
Etot_v_h;
totalNoi se;
sign_dyn_lp
Las s ig u ie n te s c a ra c te rís tica s de co rre la c ió n se d e fine n en el d o cu m e n to W O 2011/049514 :
aEn;
harm_cor_cns
actpred
cor est
S e d e fine n las s ig u ie n te s c a ra c te rís tica s en la so lu c ió n d ada en el A n e xo A:
Etot_v_h;
lt_c°r_est = 0. Olf *cor_est - O.9i i"+lt_cor_est;
lt_tn_track = 0.03f* (Etot - totalNoise < 10} - 0.97f '■l'lt_tn_track;
lt_tn_dist = 0.03Í* (Etot - totalNoise) - 0.97f*lt_tn_dist;
lt_Ellp_dist=0.03f* (Etot- Etot_l_lp) - 0.97f*lt_Ellp_dist;
harmcorcn;
1ow_tn_track_cnt
La lóg ica de a c tu a liza c ió n de ru ido de la so lu c ió n d ad a en el a ne xo A se m u e s tra en la fig u ra 7. Las m e jo ras , en re lac ió n con la so lu c ió n d escrita en el p re se n te d ocum e n to , de l e s tim a d o r de ru ido de l A n e xo A e s tán re la c io n a d a s p rin c ip a lm e n te con la parte 701, d on de se ca lcu la n ca ra c te rís tica s ; la p a rte 702, d on de las d e c is io n e s de p au sa se to m a n en base a d ife re n te s p a rá m e tros ; y a d e m á s con la p arte 703, d on de se to m a n d ife re n te s a cc io n e s en base a si se d e tec ta o no una pausa . A d e m á s, las m e jo ra s p ueden te n e r un e fe c to en la a c tu a liza c ió n 704 de la e s tim a c ió n de l ru ido de fondo , q ue pod ría a c tu a liza rse , p o r e je m p lo , cu a n d o se d e te c ta una p ausa en base a las n uevas ca ra c te rís tica s , q ue no se h ab rían d e te c ta d o a n tes de in tro d u c ir la so lu c ió n d e sc rita en el p re se n te d ocum e n to . En la im p la n ta c ió n de e je m p lo d e sc rita en el p re se n te d ocum e n to , las n u e va s c a ra c te rís tica s in tro d u c id a s en el p rese n te d o cu m e n to se ca lcu la n de la s ig u ie n te m anera , co m e n za n d o con n o_ sta B , que se d e te rm in a u tiliza n d o las e ne rg ía s e n r[i] de su b b a n d a de la tra m a actua l, que co rre sp o n d e a E cb (i) a n te r io r y en la fig u ra 6, y la e s tim a c ió n b ck r [i] de ru ido de fo n d o actua l, q ue co rre sp o n d e a N cb (i) a n te r io r y en la fig u ra 6. La p rim e ra parte de la p rim e ra se cc ió n de cód igo a co n tin u a c ió n está re la c io n a d a con un p ro ce d im ie n to in ic ia l e sp e c ia l para las p rim e ra s 150 tra m a s de una señ a l de aud io , a n te s de q ue se h aya d e riva d o una p rop ia e s tim a c ió n de fondo .
I* calcúlate non-stationarity feature relative background (spectral closenessfeature non_staB 7
if (¡n ijram e < 150)
{
I* During init don't ¡nclude updates 7
non_staB = (float)fabs(log(enr[¡] 1.0f) -
log(E_MIN 1.01));
}
}
else
{
r After ¡nit compare with background estímate 7
if ( i >= 2 && i <= 16)
{
non_staB = (float)fabs(log(enr[¡] 1.0f) -log(bckr[¡] 1.0f));
}
}
¡f (non_staB >= 128)
{
non_staB = 32767.0/256.0Í;
}
Las se cc io n e s de cód igo s ig u ie n te s m u e s tra n cóm o se ca lcu la n las n ue va s c a ra c te rís tica s de las e n e rg ía s re s idu a le s de p red icc ió n linea l, es dec ir, a q u é lla s para la g a n a n c ia de p red icc ió n linea l. En el p re se n te d o cu m e n to las e ne rg ía s re s id u a le s se d e n o m in a n e psP [m ] (cf. E (m ) u sa do a n te rio rm en te ).
I
* *
* Linear prediction efficiency 0 to 2 order
‘ (linear prediction gain going from 0,h to 2nd order model of linear prediction filter)
* *i
epsP_0_2 = max(0 , mln(8, epsP[0] / epsP[2]));
epsP_0_2_lp - 0.15f* epsP_0_2 (1.0f-0.15f) * st->epsP_0_2_lp;
epsP_0_2_ad = (float) fabs(epsP_0_2 - epsP_0_2_lp);
if (epsP_0_2_ad < epsP_0_2_ad_lp)
{
epsP_0_2_ad_lp = 0.1f * epsP_0_2_ad (1.0f- 0.11) * epsP_0_2_ad_lp;
}
else
{
epsP_0_2_ad_lp = 0.2f * epsP_0_2_ad (1.0f- 0.2f) * epsP_0_2_ad_lp;
}
epsP_0_2_ad_lp_max = max(epsP_0_2_ad,st->epsP_0_2_ad_lp);
I* *
* Linear predition efficiency 2 to 16 order
‘ (linear prediction gain going from 2nd to 16th order model of linear prediction filter)
* * j
epsP_2_16 = max(0 , mln(8, epsP[2] / epsP[16]));
if (epsP_2_16 > epsP_2_16Jp)
{
epsP_2_16_lp = 0.2f * epsP_2_16 (1.0f-0.2f) * epsP_2_16_lp;
}
else
{
epsP_2_16_lp = 0.03f * epsP_2_16 (1.0f-0.03f) * epsP_2_16_lp;
}
epsP_2_16_lp2 = 0.02f * epsP_2_16 (1.0f-0.02f) * epsP_2_16_lp2;
epsP 2 16 dlp = epsP_2_16_lp-epsP_2_16Jp2;
if (epsP_2_16_dlp < epsP_2_16_dlp_lp2)
{
epsP_2_16_dlp_lp2 - 0.02f * epsP_2_16_dlp (1.0f-0.02f) * epsP_2_16_dlp_lp2;
}
else
{
epsP_2_16_dlp_lp2 = 0.05f ‘ epsP_2_16_dlp (1.0f-0.05f) * epsP_2_16_dlpJp2;
}
epsP_2_16_dlp_max = max(epsP_2_16_dl p,epsP_2_16_dlp_l p2);
El cód igo s ig u ie n te ilus tra la c re ac ión de m é tricas com b in a d a s , u m b ra le s y b a n d e ra s u tiliza d a s para la d e c is ió n de a c tu a liza c ió n real, es dec ir, la d e te rm in a c ió n de si se d eb e a c tu a liz a r o no la e s tim a c ió n de l ru ido de fondo . A l m enos a lg u n o s de los p a rá m e tro s re la c io n a d o s con las g a n a n c ia s de p red icc ió n linea l y /o la c e rca n ía e sp e c tra l se ind ican en negrita .
comb_ahc_epsP = max(max(act_pred,lt_haco_ev),epsP_2_16_dlp);
comb_hcm_epsP = max(max(lt_haco_ev,epsP_2_16_dlp_max),epsP_0_2_ad_lp_max);
haco_ev_max = max(st_harm_cor_cnt==0,>lt_haco_ev);
Etot_l_lp_thr = st->Etot_l_lp (1.5f 1.5f * (Etot_lp<50.0f))*Etot_v_h2;
enr_bgd = Etot < EtotJJp_thr;
cns_bgd = (epsP_0_2 > 7.95f) && (non_sta< 1e3f);
lp_bgd =epsP_2_16_dlp_max<0.10f;
ns_mask = non_sta < 1e5f;
lt_haco_mask = lt_haco_ev < 0.5f;
bg_haco_mask = haco_ev_max < 0.4f;
SD_1 = ( (epsP_0_2_ad > 0.5f) && (epsP_0_2 > 7.95f));
bg_bgd3 = enr_bgd || ( ( cns_bgd || lp_bgd) && ns_mask && lt_haco_mask && SD_1==0);
PD_1 = (epsP_2_16_dlp_max < 0.1 Of);
PD_2 = (epsP_0_2_ad_lp_max < 0.1 Of);
PD_3 = (comb_ahc_epsP < 0.85f);
PD_4 = comb_ahc_epsP < 0.15f;
PD_5 = comb_hcm_epsP < 0.30Í;
BG_1 = ( (SD_1==0) || (Etot < Etot_l_lp_thr)) && bg_haco_mask && (act_pred < 0.85f) && (Etotjp < 50.0Í);
PAU = (aEn==0) || ( (Etot < 55.0Í) && (SD_1==0) && (( PD_3 && (PD_1 || PD_2)) || ( PD_4 || PD_5)) ) ;
NEW_POS_BG = (PAU | BG_1) & bg_bgd3;
I* Original silence detector works in most cases 7
aE_bgd = aEn == 0;
f When the signal dynamics is high and the energy is cióse to the background estímate 7
sd1_bgd = (st->sign_dyn_lp > 15) && (Etot - st->Etot_l_lp) < 2*st->Etot_v_h2 && st->harm_cor_cnt > 20;
I* init conditions steadily dropping act_pred and/or lt_haco_ev 7
tn_ini = inijrame < 150 && harm_cor_cnt > 5 &&
( (st->act_pred < 0.59Í && st->lt_haco_ev <0.23f) ||
st->act_pred < 0.38f ||
st->lt_haco_ev<0.15f||
n o n _ s ta B < 50.0 f||
aE_bgd);
/* Energy cióse to the background estímate serves as a mask for other background detectors 7
bg_bgd2 = Etot < Etot_l_lp_thr || tn_in¡;
C om o es im p o rta n te no h a c e r una a c tu a liza c ió n de la e s tim a c ió n de ru ido de fo n d o cua n d o una tra m a o se g m e n to a c tu a l co m p re n d e co n te n id o a c tivo , se e va lú a n va r ia s co n d ic io n e s con el fin de d e c id ir si se va a h a c e r una a c tu a liz a c ió n . E l paso de d e c is ió n p rin c ip a l en la lóg ica de a c tu a liza c ió n de ru ido es si se d e b e h a ce r una a c tu a liza c ió n o no, y e s to se fo rm a m e d ia n te la e va lu a c ió n de una e xp re s ió n lóg ica , que se su b ra ya a co n tin u a c ió n . El nue vo p a rá m e tro N E W _ P O S _ B G (n ue vo en re lac ió n a la so lu c ió n de l A n e xo A y de l d o cu m e n to W O 2011 /049514 ) es un d e te c to r de pausa , y se o b tie n e en base a las g a n a n c ia s de p red icc ió n linea l que van de o rde n 0 a 2° y de 2° a 16° de l m o de lo de un filtro de p red icc ió n linea l, y tn_ in i se o b tie n e en fu n c ió n de las c a ra c te rís tica s re la c io n a d a s con la ce rca n ía e sp ec tra l. A q u í s ig u e una lóg ica de d e c is ió n u sa nd o las n ue va s ca ra c te rís tica s , de a cu e rd o con la re a liza c ió n a m o do de e je m p lo .
updt_step=O.Of;
if ( ( bq bqd2 && ( aE bqd II sd1 bqd II It tn track >0.90f II NEW POS BG m i
tn ini )
{
if( ( ( act_pred < 0.85f) &&
aE_bgd &&
( lt_Ellp_dist < 10 || sd1_bgd) && lt_tn_dist<40 &&
( ( Etot-totaINoise) < 10.0f) ) ||
( st->first_noise_updt == 0 && st->harm_cor_cnt > 80 && aE_bgd && st->lt_aEn_zero > 0.5f) ( tn_ini && ( aE_bgd || non_staB < 10.0 || st»harm_cor_cnt > 80) )
)
{
updt_step=1.0f;
st->first_noise_updt = 1;
for( i=0; i< NB_BANDS; i++)
{
st->bckr[¡] = tmpN[i];
}
}
else if ( ( ( st->act_pred < 0.80f) && ( aE_bgd || PAU) && st->lt_haco_ev < 0.1 Of) ||
( ( st->act_pred < 0.70 f) && ( aE_bgd || non_staB < 17.Of) && PAU && st->lt_haco_ev < 0.15Í) ||
( st->harm_cor_cnt > 80 && st->totalNoise > 5.0f && Etot < max(1.0f,Etot_l_lp 1.5 f st->Etot_v_h2)) ||
( st->harm_cor_cnt > 50 && st->first_noise_updt > 30 && aE_bgd && st->lt_aEn_zero>0.5f) ||
tn jn i
)
{
updt_step=0.1f;
if(!aE _bgd &&
st->harm_cor_cnt < 50 &&
( st->act_pred > 0.6f ||
( !tn_ini && E to tJJp - st->totalNoise < 10.Of && non_staB > 8.0 f) ) )
{
updt_step=0.01f;
}
if (updt_step > O.Of)
{
st->fi rst_no ise_u pdt = 1;
for( i=0; ¡<NB_BANDS;¡++)
{
st->bckr[¡] = st->bckr[¡] updt_step * (tmpN[i]-st->bckr[i]);
}
}
}
else if (aE_bgd || st->harm_cor_cnt > 100)
{
( st->fi rst_noise_u pdt) = 1;
}
}
else
{
/* If in music lower bckr to drop further 7
if ( st->low_tn_track_cnt > 300 && st->lt_haco_ev >0.9f && st->totalNoise > O.Of)
{
updt_step=-0.02f;
for( i=0; i< NB_BANDS; i+ )
{
if (st->bckr[¡] > 2*E_MIN)
{
st->bckr[¡] = 0.98f*st->bckr[i];
}
}
}
}
st->lt_aEn_zero = 0.2f * (st->aEn==0) (1-0.2f)*st->lt_aEn_zero;
C om o se ha ind ica d o a n te r io rm e n te , las ca ra c te rís tic a s de la p red icc ió n linea l p ro p o rc io n a n a n á lis is in d e p e n d ie n te de n ive l de la señ a l de e n tra d a que m e jo ra la d e c is ió n para la a c tu a liza c ió n de ru ido de fo n d o que es p a rticu la rm e n te útil en el in te rva lo de S N R de 10 a 20 dB, d o n d e la e n e rg ía en base al S A D ha lim itad o el re n d im ie n to d e b id o a el ra ng o d in á m ico n o rm a l de las se ñ a le s de vo z .
L a s c a ra c te rís tica s de ce rca n ía de fo n d o m e jo ran ta m b ié n la e s tim a c ió n de ru ido de fon do , ya que p u e de n se r u tiliza d a s tan to para la in ic ia liza c ió n co m o para el fu n c io n a m ie n to norm a l. D u ran te la in ic ia liza c ió n , pue de n p e rm itir una in ic ia liza c ió n ráp ida para el ru ido de fo n d o (n ive l in fe rio r) con co n te n id o p rin c ip a lm e n te de ba ja fre cu e n c ia , com ú n para el ru ido del a u to m ó v il. A d e m á s , las c a ra c te rís tica s se p u e de n u sa r para im p e d ir a c tu a liza c io n e s de ru ido al u sa r tra m a s de ba ja e n e rg ía con una g ran d ife re n c ia en las c a ra c te rís tica s de fre cu e n c ia en co m p a ra c ió n con la e s tim a c ió n de fo n d o a ctua l, lo que su g ie re que la tra m a a c tu a l p ue de s e r co n te n id o a c tivo de ba jo n ive l y una a c tu a liza c ió n p od ría im p e d ir la d e te cc ió n de fu tu ra s tra m a s con co n te n id o s im ila r.
Las fig u ra s 8 -10 m u es tra n có m o los p a rá m e tro s o m e d id a s re sp e c tivo s se c o m p o rta n para la v o z con fon do de ru ido de a u to m ó v il de S N R de 10 dB. En las fig u ra s 8 -10 los p un tos , "•", re p re se n ta n cad a uno la e n e rg ía de tra m a . Para las fig u ra s 8 y 9a-c , la e n e rg ía se ha d iv id id o e n tre 10 para s e r m ás c o m p a ra b le para las c a ra c te rís tica s b a sa d a s en G _ 0 _2 y G _ 2 _16. Los d ia g ra m a s co rre sp o n d e n a una señ a l de a u d io que c o m p re n d e dos e xp re s io n e s , d o n d e la p os ic ió n a p ro x im a d a para la p rim e ra e xp re s ió n es en las tra m a s 1310 a 1420, y para la se g u n d a en las tra m a s 1500
a 1610.
La figu ra 8 m u es tra la e n e rg ía de tra m a (/10 ) (pun to , "•") y las c a ra c te rís tica s G _ 0 _ 2 (c írcu lo , "o ") y G m a x_ 0 _ 2 (m ás, "+ "), para vo z de S N R de 10 dB con ru ido de au tom ó v il. O b sé rve se que G _ 0 _2 es 8 d u ra n te el ru ido del a u tom ó v il, ya q ue e x is te c ie rta co rre la c ió n en la señ a l q ue se p ue de m o d e la r u tiliza n d o la p red icc ió n linea l con el o rde n 2 del m ode lo . D u ran te las e xp re s io n e s , la ca ra c te rís tica G m a x_ 0 _ 2 se co n v ie rte en m ás de 1,5 (en e ste caso), y, d e sp u é s de la rá faga de voz, cae a 0. E n una im p la n ta c ió n e sp e c ífica de una lóg ica de d ec is ió n , G m a x_ 0 _ 2 tie n e q ue e s ta r p o r d eb a jo de 0,1 para p e rm itir a c tu a liza c io n e s de ru ido u sa nd o e sta ca rac te rís tica .
La fig u ra 9a m u es tra la e n e rg ía de tra m a (/10 ) (p un to , "•") y las c a ra c te rís tica s G _ 2 _ 16 (c írcu lo , "o"), G 1 _ 2 _ 16 (cruz, "x"), G 2 _ 2 _ 16 (m ás, "+ "). La fig u ra 9b m u es tra la e n e rg ía de tra m a (/10 ) (p un to , "•") y las c a ra c te rís tica s G _ 2 _16 (c írcu lo , "o"), G d _ 2 _ 16 (cruz, "x ") y G a d _ 2 _ 16 (m ás, "+ "). La fig u ra 9c m u e s tra la e n e rg ía de tra m a (/10 ) (pun to , "•") y las c a ra c te rís tica s G _ 2 _ 16 (c írcu lo , "o ") y G m a x_ 2 _ 16 (m ás, "+ "). Los d ia g ra m a s que se m u es tra n en las fig u ra s 9 a -c ta m b ié n se re fie ren a vo z de S N R de 10dB con ru ido de coche. Las c a ra c te rís tica s se m u e s tra n en tre s d ia g ra m a s para q ue sea m ás fác il v e r cad a p a rá m e tro . O b sé rve se que G _ 2 _ 16 (c írcu lo , "o ") e stá ju s to p o r e n c im a de 1 d u ra n te el ru ido del a u to m ó v il (es dec ir, e xp re s io n e s e x te rn a s ), lo que ind ica q ue la g a n a n c ia de l o rden s u p e r io r de m o de lo es ba ja para e ste tip o de ru ido. D u ra n te las e xp re s io n e s , la ca ra c te rís tica G m a x_ 2 _ 16 (m ás, "+ " de la figu ra 9c) aum e n ta , y luego co m ie n za a c a e r n u e va m e n te a 0. En una im p la n ta c ió n e sp e c ífica de una lóg ica de d ec is ió n , la ca ra c te rís tica G m a x_ 2 _ 16 ta m b ié n tie n e q ue s e r in fe rio r a 0,1 para p e rm itir a c tu a liza c io n e s de ru ido . En esta m u es tra de señ a l de a ud io en p a rticu la r, e sto no ocurre.
La fig u ra 10 m u es tra la e n e rg ía de tra m a (p un to , "•") (no d iv id id a p o r 10 e sta v e z ) y la ca ra c te rís tica n on sta B (m ás, "+ ") para v o z de S N R de 10dB con ru ido de a u tom ó v il. La ca ra c te rís tica n o n s ta B e stá en el in te rva lo de 0 -10 d u ra n te se g m e n to s de só lo ru ido, y p a ra las e xp re s io n e s se vu e lve m u ch o m ás g ra n d e (ya que las c a ra c te rís tica s de fre cu e n c ia son d ife re n te s para la voz). S in e m ba rg o , d eb e te n e rse en cu e n ta que, inc lu so d u ra n te las e xp re s io ne s , h ay tra m a s en las q ue la ca ra c te rís tica n o n s ta B cae en el ra ng o de 0 a 10. P ara e stas tra m a s pod ría h a b e r la p os ib ilid a d de h a ce r a c tu a liza c io n e s de ru ido de fo n d o y, p o r e llo , h a ce r un m e jo r se g u im ie n to del ru ido de fondo .
La so lu c ió n d e sc rita en el p re se n te d o cu m e n to ta m b ié n se re fie re a un e s tim a d o r de ru ido de fo n d o im p la n ta d o en e q u ip o fís ico in fo rm á tico (h a rd w a re ) y /o e q u ip o lóg ico in fo rm á tico (so ftw are ).
Estimador de ruido de fondo, figuras 11a-11c
Un e je m p lo de re a liza c ió n de un e s tim a d o r de ru ido de fo n d o se ilus tra de m a n e ra g e n e ra l en la fig u ra 11a. P or e s tim a d o r de ru ido de fo n d o se e n tie n d e un m ó d u lo o e n tida d co n fig u ra d o p ara e s tim a r el ru ido de fo n d o en señ a le s de a ud io que co m p re n d e n , p o r e je m p lo , vo z y /o m úsica . El c o d ific a d o r 1100 e stá co n fig u ra d o para re a liza r al m enos un m é to do co rre sp o n d ie n te a los m é to d o s d e sc rito s a n te r io rm e n te con re fe ren c ia , p o r e je m p lo , a las fig u ra s 2 y 7. El c o d ific a d o r 1100 está a so c ia d o con las m ism a s ca ra c te rís tica s té cn ica s , o b je to s y v e n ta ja s que las re a liza c io n e s de m é to d o s d e sc rita s a n te rio rm e n te . El e s tim a d o r de ru ido de fo n d o se d e sc rib irá b re ve m e n te para e v ita r re p e tic io n e s inn e ce saria s .
El e s tim a d o r de ru ido de fo n d o se p uede im p la n ta r y /o d e s c r ib ir com o s igue:
El e s tim a d o r 1100 de ru ido de fo n d o e stá c o n fig u ra d o para la e s tim a c ió n de un ru ido de fo n d o de una señ a l de aud io. El e s tim a d o r 1100 de ru ido de fo n d o co m p re n d e c ircu ite ría de p ro ce sa m ie n to o m e d io s de p ro ce sa m ie n to 1101 y una in te rfaz 1102 de c o m u n ica c ió n . La c ircu ite ría 1101 de p ro ce sa m ie n to e stá co n fig u ra d a para h a ce r q ue el c o d ific a d o r 1100 o b ten ga , p o r e je m p lo , d e te rm in e o ca lcu le , al m e no s un p a rá m e tro , p o r e je m p lo N E W _ P O S _ B G , en base a una p rim e r g a n a n c ia de p red icc ió n linea l ca lcu la d a com o el co c ie n te e n tre una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de o rde n 0 y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de s e g u n d o o rde n para el se g m e n to de señ a l de a u d io ; y una se g u n d a g a n a n c ia de p red icc ió n linea l ca lcu la d a com o el co c ie n te e n tre una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n line a l de se g u n d o o rde n y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de 16° o rde n p ara el se g m e n to de señ a l de aud io.
La c ircu ite ría 1101 de p ro ce sa m ie n to e stá co n fig u ra d a a d ic io n a lm e n te para p ro vo ca r que el e s tim a d o r de ru ido de fo n d o d e te rm in e si el se g m e n to de señ a l de a ud io co m p re n d e una pausa , es dec ir, e stá libre de co n te n id o a c tivo ta l co m o vo z y m úsica , en base al al m e no s un p a rá m e tro . La c ircu ite ría 1101 de p ro ce sa m ie n to e stá co n fig u ra d a a d ic io n a lm e n te para h a ce r que el e s tim a d o r de ru ido de fo n d o a c tu a lice una e s tim a c ió n de ru ido de fo n d o en b ase al se g m e n to de señ a l de a ud io cu a n d o el se g m e n to de señ a l de a ud io co m p re n d e una pausa.
La in te rfaz 1102 de co m u n ica c ió n , q ue ta m b ié n p uede s e r d en o tad a , p o r e je m p lo , in te rfaz de e n tra d a /sa lid a (I/O ), inc lu ye una in te rfaz para e n v ia r d a to s a y re c ib ir d a tos de o tra s e n tid a d e s o m ódu los . P o r e je m p lo , las señ a le s re s idu a le s , re la c io n a d a s con los ó rd e n e s 0 , 2 y 16 de l m o de lo de p red icc ió n lineal, se p ue de n o b ten er, p o r e jem p lo , re c ib id as , m e d ia n te la in te rfaz de I/O d esde un c o d ific a d o r de señ a l de a ud io q ue rea liza una c o d ifica c ió n p red ic tiva lineal.
La c ircu ite ría 1101 de p ro ce sa m ie n to pod ría , co m o se ilus tra en la fig u ra 11b, c o m p re n d e r m e d io s de p roce sa m ie n to , ta le s com o un p ro c e sa d o r 1103, p o r e je m p lo una C P U , y una m e m o ria 1104 para a lm a c e n a r o m a n te n e r
ins tru cc io n e s . La m e m o ria co m p re n d e ría , e n ton ces , ins tru cc io n e s , p o r e je m p lo , en fo rm a de un p ro g ra m a in fo rm á tico 1105, que, cu a n d o fue ra e je cu ta d o p o r los m e d io s 1103 de p ro ce sa m ie n to hace q ue el c o d ific a d o r 1100 rea lice las a cc io n e s d esc rita s a n te rio rm e n te .
U na im p la n ta c ió n a lte rn a tiva de la c ircu ite ría de p ro ce sa m ie n to 1101 se m u e s tra en la fig u ra 11c. La c ircu ite ría de p ro ce sa m ie n to de l p re se n te d o cu m e n to co m p re n d e una u n idad o m ó d u lo 1106 de o b te n c ió n o d e te rm in a c ió n , c o n fig u ra d o para h a ce r q ue el e s tim a d o r 1100 de ru ido de fo n d o o b ten ga , p o r e je m p lo , d e te rm in e o ca lcu le , al m e no s un p a rá m e tro , p o r e je m p lo N E W _ P O S _ B G , en base a una p rim e ra g a n a n c ia de p red icc ió n linea l ca lcu la d a co m o el co c ie n te e n tre una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de o rde n 0 y una se ñ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de se g u n d o o rden para el se g m e n to de se ñ a l de a u d io ; y una se g u n d a g a n a n c ia de p red icc ió n linea l c a lcu la d a co m o el co c ie n te e n tre una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de se g u n d o o rde n y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de 16° o rde n p ara el se g m e n to de señ a l de aud io. La c ircu ite ría de p ro ce sa m ie n to co m p re n d e a d ic io n a lm e n te una u n idad o m ó du lo 1107 de d e te rm in a c ió n , co n fig u ra d o para h a ce r q ue el e s tim a d o r 1100 de ru ido de fo n d o d e te rm in e si el se g m e n to de seña l de a ud io co m p re n d e una pausa , es dec ir, e stá lib re de co n te n id o a c tivo ta l com o v o z y m úsica , en base al al m enos un p ará m e tro . La c ircu ite ría 1101 de p ro ce sa m ie n to co m p re n d e a d ic io n a lm e n te una u n idad o m ó du lo 1110 de a c tu a liza c ió n o e s tim a c ió n , c o n fig u ra d o p ara h a ce r q ue el e s tim a d o r de ru ido de fo n d o a c tu a lice una e s tim a c ió n de ru ido de fo n d o en b ase al se g m e n to de señ a l de a ud io cu a n d o el se g m e n to de señ a l de a u d io co m p re n d e una pausa.
La c ircu ite ría 1101 de p ro ce sa m ie n to p od ría c o m p re n d e r m ás u n idades , ta le s com o una u n idad o m ó du lo de filtro c o n fig u ra d o para p ro vo ca r que el e s tim a d o r de ru ido de fon do filtre de paso ba jo las g a n a n c ia s de p red icc ió n lineal, c re an do , de e ste m odo, una o m ás e s tim a c io n e s a la rgo p lazo de las a cc io n e s de g a n a n c ia s de p red icc ió n line a l ta l q ue el f iltra d o de paso ba jo p ue da re a liza rse de o tro m odo, p o r e je m p lo , m e d ia n te la u n idad o m ó d u lo 1107 de d e te rm in a c ió n .
Las re a liza c io n e s de un e s tim a d o r de ru ido de fo n d o q ue se han d e sc rito a n te r io rm e n te se p od rían c o n fig u ra r para las d ife re n te s re a liza c io n e s de l m é to do d e sc rita s en el p re se n te d ocum e n to , ta l com o lim ita n d o y filtra n d o de paso ba jo las g a n a n c ia s de p red icc ió n linea l; d e te rm in a n d o una d ife re n c ia e n tre g a n a n c ia s de p red icc ió n linea l y e s tim a c io n e s a la rgo p lazo y e n tre e s tim a c io n e s a la rgo p lazo; y /u o b te n ie n d o y u sa nd o una m e d id a de ce rca n ía e sp ec tra l, etc.
S e p uede a su m ir q ue el e s tim a d o r 1100 de ru ido de fon do co m p re n d a una fu n c io n a lid a d ad ic ion a l, para lle va r a cabo la e s tim a c ió n de ru ido de fondo , ta l com o , p o r e je m p lo , la fu n c io n a lid a d e je m p lifica d a en el A p é n d ic e A.
La fig u ra 12 ilus tra un e s tim a d o r 1200 de fo n d o de a cu e rd o con una re a liza c ió n a m o do de e je m p lo . El e s tim a d o r 1200 de fo n d o co m p re n d e una un idad de e n trada , p o r e je m p lo , para re c ib ir e n e rg ía s re s id u a le s para los m o d e lo s de ó rd e n e s 0, 2 y 16. El e s tim a d o r de fo n d o co m p re n d e a d ic io n a lm e n te un p ro c e sa d o r y una m e m oria , co n ten ien do , d ich a m e m oria , in s tru cc io n e s e je cu ta b le s p o r d icho p roce sa d o r, p o r lo q ue d ich o e s tim a d o r de fo n d o e stá o pe ra tivo para: re a liza r un m é to do de a cu e rd o con una re a liza c ió n d e sc rita en el p re se n te d ocum e n to .
En co n se cu e n c ia , el e s tim a d o r de fo n d o p ue de co m p re n d e r, co m o se ilus tra en la fig u ra 13, una u n idad 1301 de e n tra d a /sa lid a , una ca lcu la d o ra 1302 para c a lc u la r los dos p rim e ro s co n ju n to s de c a ra c te rís tica s de las e ne rg ía s re s id u a le s para los m o d e lo s de ó rd e n e s 0, 2 y 16 y un a n a liza d o r 1303 de fre cu e n c ia para c a lc u la r la ca ra c te rís tica de c e rca n ía espectra l.
Un e s tim a d o r de ru ido de fo n d o com o los d e sc rito s a n te r io rm e n te p uede e s ta r co m p re n d id o , p o r e je m p lo , en un V A D o S AD , un c o d ific a d o r y /o un d e co d ifica d o r, es dec ir, un códec, y /o en un d isp o s itivo , ta l com o un d isp o s itivo de co m u n ica c ió n . El d isp o s itivo de c o m u n ica c ió n p ue de s e r un e q u ip o de u su a rio (U E ) en fo rm a de te lé fo n o m óvil, cá m a ra de v íd e o , g ra b a d o ra de son ido , tab le ta , o rd e n a d o r de e sc rito rio , o rd e n a d o r portá til, d e c o d ifica d o r de T V o s e rv id o r d o m é s tic o /p a s a re la d o m é s tic a /p u n to de a cce so d o m é s tic o /e n ru ta d o r d om é stico . El d isp o s itivo de co m u n ica c ió n p uede en a lg u n a s re a liza c io n e s s e r un d isp o s itivo de red de co m u n ica c io n e s a d a p ta d o para c o d ific a r y /o tra n s c o d ific a r se ñ a le s de aud io . E je m p lo s de ta le s d isp o s itivo s de red de co m u n ica c io n e s son los se rv id o res , ta le s com o se rv id o re s de m ed ios, se rv id o re s de a p lica c io n e s , e n ru ta d o re s , p asa re la s y e s ta c io n e s b ase de rad io . El d isp o s itivo de co m u n ica c ió n ta m b ié n p ue de a d a p ta rse p ara co lo ca rse , es dec ir, e m p o tra rse , en una nave ta l com o un barco , un avión no tr ip u la d o vo la d o r, o un avión, y en un ve h ícu lo de ca rre te ra ta l com o un a u tom ó v il, un a u tob ús o un cam ió n . T a l d isp o s itivo e m p o tra d o p e rte n e ce ría típ ic a m e n te a una u n idad te le m á tic a de l ve h ícu lo o al s is te m a de in fo rm a c ió n y e n tre te n im ie n to del ve h ícu lo .
Los pasos, fun c ion es , p ro ce d im ie n to s , m ó du los , u n id a d e s y /o b lo q u e s d e sc rito s en el p rese n te d o cu m e n to p ueden im p la n ta rse en h a rd w a re u sa n d o c u a lq u ie r te c n o lo g ía co n ve n c io n a l, ta le s com o c ircu ito d is c re to o te c n o lo g ía de c ircu ito in te grad o , in c lu ye n d o ta n to c ircu ite ría e le c tró n ica de fine s g e n e ra le s com o c ircu ite ría de a p lica c ió n esp ec ífica .
Los e je m p lo s p a rticu la re s inc luyen uno o m ás p ro ce sa d o re s de se ñ a l d ig ita l y o tro s c ircu ito s e le c tró n ico s co n o c id o s a d e cu a d a m e n te co n fig u ra d o s , p o r e je m p lo p u e rtas lóg icas d is c re ta s in te rco n e c ta d a s para re a liz a r una fun c ión
e sp e c ia liza d a o c ircu ito s in te g ra d o s e sp e c ífico s (A S IC ).
A lte rn a tiva m e n te , al m e no s a lg u n o s de los pasos, fun c ion es , p ro ce d im ie n to s , m ó du los , u n id a d e s y /o b lo q ue s d e sc rito s a n te r io rm e n te p ueden im p la n ta rse en so ftw a re ta l com o un p ro g ra m a in fo rm á tico para su e je cu c ió n por c ircu ite ría de p ro ce sa m ie n to a de cu a d a , in c lu ye n d o una o m ás u n id a d e s de p ro ce sa m ie n to . E l so ftw a re p od ría se r tra n s p o rta d o p o r un ope ra do r, co m o una se ñ a l e le c trón ica , una se ñ a l óp tica , una señ a l de ra d io o un m e d io de a lm a ce n a m ie n to leg ib le p o r o rd e n a d o r a n tes y /o d u ra n te el uso de l p ro g ra m a in fo rm á tico en los n odos de la red.
El d ia g ra m a o los d ia g ra m a s de flu jo p re se n ta d o s en el p re se n te d o cu m e n to p ueden c o n s id e ra rse com o un d ia g ra m a o d ia g ra m a s de flu jo in fo rm á tico , cu a n d o se re a liza /n p o r uno o m ás p roce sa d o re s . Un a p a ra to co rre sp o n d ie n te p uede d e fin irse com o un g rup o de m ó d u lo s de fun c ión , d on de cada p aso re a liza d o p o r el p ro c e sa d o r co rre sp o n d e a un m ó du lo de fun c ión . En e ste caso , los m ó d u lo s de fu n c ió n se im p lan ta n com o un p ro g ra m a in fo rm á tico q ue se e je cu ta en el p roce sa d or.
Los e je m p lo s de c ircu ite ría de p ro ce sa m ie n to inc luyen , pero no se lim itan a, uno o m ás m ic ro p ro ce sa d o re s , uno o m ás p ro ce sa d o re s de señ a l d ig ita l, D S P , una o m ás u n id a d e s ce n tra le s de p ro ce sa m ie n to , C P U , y /o cu a lq u ie r c ircu ite ría lóg ica p ro g ra m a b le a d e cu a d a ta l co m o una o m ás m a trice s de p u e rta s p ro g ra m a b le s de cam p o, FP G A , o uno o m ás co n tro la d o re s lóg icos p ro g ra m a b le s , PLC . Es dec ir, q ue las u n id a d e s o m ó d u lo s de las d isp o s ic io n e s en los d ife re n te s n odos d e sc rito s a n te r io rm e n te p od rían im p la n ta rse m e d ia n te una co m b in a c ió n de c ircu ito s a n a ló g ico s y d ig ita le s , y /o uno o m ás p ro ce sa d o re s c o n fig u ra d o s con so ftw a re y /o so p o rte lóg ico in a lte ra b le (firm w a re ), por e je m p lo a lm a ce n a d o s en una m e m oria . U no o m ás de e s to s p roce sa d o re s , a s í com o el o tro h a rd w a re d ig ita l, pueden inc lu irse en una so la c ircu ite ría in te g ra d a de a p lica c ió n e sp e c ífica , A S IC , o en v a r io s p ro ce sa d o re s , y d ive rsos h a rd w a re d ig ita le s p ueden e s ta r d is tr ib u id o s e n tre v a r io s c o m p o n e n te s sep a rad os , ya sea e m p a q u e ta d o s in d iv id u a lm e n te o e n sa m b la d o s en un s is te m a en un ch ip , SoC.
T a m b ié n d ebe e n te n d e rse que p ue de s e r p os ib le re u tiliza r las c a p a c id a d e s g e n e ra le s de p ro ce sa m ie n to de cu a lq u ie r d isp o s itivo o un idad co n ve n c io n a l en el q ue se im p la n te la te c n o lo g ía p rop u es ta . T a m b ié n es p os ib le re u tiliza r el so ftw a re ex is ten te , p o r e je m p lo , re p ro g ra m a n d o el so ftw a re e x is te n te o a ñ a d ie n d o n u e vo s c o m p o n e n te s de so ftw a re .
Las re a liza c io n e s d e sc rita s a n te r io rm e n te se dan s im p le m e n te com o e je m p los , y d ebe e n te n d e rse que la te cn o lo g ía p ro p u e s ta no e stá lim itad a a los m ism os. El e xp e rto en la té c n ica e n te n d e rá q ue p ueden re a liza rse d ive rsa s m o d ifica c io n e s , c o m b in a c io n e s y ca m b io s en las re a liza c io n e s sin a p a rta rse de l p re se n te a lca nce . En p articu la r, se p ueden c o m b in a r d ife re n te s so lu c io n e s p a rc ia le s en las d ife re n te s re a liza c io n e s en o tras co n fig u ra c io n e s , cua nd o sea té c n ica m e n te pos ib le .
C u a n d o se use la p a la b ra "co m p re n d e r" o "q u e co m p re n d e " se in te rp re ta rá com o no lim ita tiva , es dec ir, com o que s ig n ifica "c o n s is tir al m enos en".
T a m b ié n se d ebe o b s e rva r q ue en a lg u n a s im p la n ta c io n e s a lte rn a tiva s , las fu n c io n e s /a c to s a n o ta d o s en los b loques p ueden o cu rr ir fu e ra del o rde n a n o ta d o en los d ia g ra m a s de flu jo . P o r e je m p lo , d os b lo q ue s m o s tra d o s en su ce s ió n p ueden de h echo e je cu ta rse de m a ne ra s u b s ta n c ia lm e n te co n cu rre n te o los b lo q ue s a v e ce s p ueden e je cu ta rse en el o rde n inve rso , d e p e n d ie n d o de la fu n c io n a lid a d /lo s a ctos invo lu c ra d o s . Lo q ue es m ás, la fu n c io n a lid a d de un b lo q ue d ado de los d ia g ra m a s de flu jo y /o d ia g ra m a s de b lo q u e s p uede se p a ra rse en m ú ltip le s b lo q u e s y /o la fu n c io n a lid a d de d os o m ás b lo q u e s de los d ia g ra m a s de flu jo y /o d ia g ra m a s de b lo q u e s p ue de e s ta r al m enos p a rc ia lm e n te in te grad a . F in a lm e n te , p ue de n a ñ a d irs e /in s e rta rs e o tros b lo q ue s e n tre los b lo q u e s q ue se ilus tran , y /o b lo q u e s /o p e ra c io n e s p ueden o m itirse sin a p a rta rse de l a lca n ce de los c o n ce p to s inve n tivos .
D ebe e n te n d e rse que la e le cc ió n de las u n id a d e s que in te ra c tú an , a s í com o la d e n o m in a c ió n de las u n id a d e s d en tro de e sta d ivu lga c ió n , son só lo p ara fin e s de e je m p lifica c ió n , y los n od os a d e cu a d o s para e je c u ta r cu a lq u ie ra de los m é to d o s d e sc rito s a n te r io rm e n te p ueden co n fig u ra rse en una p lu ra lid a d de m a n e ra s a lte rn a tiva s con el fin de p od e r e je c u ta r las a cc io n e s de p ro ce d im ie n to sug erida s.
T a m b ié n d eb e o b se rva rse q ue las u n id a d e s d e sc rita s en e sta d ivu lg a c ió n d eben c o n s id e ra rse com o e n tida de s lóg icas y no n e ce sa ria m e n te com o e n tid a d e s fís ica s sep a rad as .
La re fe re n c ia a un e le m e n to en s in g u la r no e stá d e s tin a d a a s ig n ific a r "u n o /a y só lo uno /a ", a m e no s que se ind ique e xp líc ita m e n te , s ino "u n o /a o m ás". Lo que es m ás, no es n e ce sa rio que un d isp o s itivo o m é to d o a b o rd e to d o s y cad a uno de los p rob le m a s que se in te n ta n re so lve r con la te c n o lo g ía d ivu lg a d a en el p re se n te d o cu m e n to descrita , para que se a b a rq u e p o r la p resente .
En a lg u n o s ca so s en el p rese n te d o cu m e n to , se o m ite n d e sc rip c io n e s d e ta lla d a s de d isp o s itivo s , c ircu ite ría y m é to d o s b ien co n o c id o s de m o do q ue no se o b scu re zca la d e sc rip c ió n de la te c n o lo g ía d ivu lg a d a con d e ta lle s in n e ce sa rio s . T o d a s las a firm a c io n e s de l p re se n te d o cu m e n to , q ue m e nc ion an los p rinc ip ios , a sp e c to s y re a liza c io n e s de la te cn o lo g ía d ivu lga da , a s í com o e je m p lo s e sp e c ífico s de la m ism a, e stán d e s tin a d o s a a b a rca r ta n to sus e q u iva le n te s e s tru c tu ra le s com o fu n c io n a le s . A d e m á s, se p re te n d e q ue ta le s e q u iva le n te s inc lu ya n ta n to los e q u iva le n te s co n o c id o s a c tu a lm e n te com o los e q u iva le n te s d e sa rro lla d o s en el fu tu ro , p o r e je m p lo , cu a lq u ie r
e le m e n to d e sa rro lla d o que re a lice la m ism a fun c ión , in d e p e n d ie n te m e n te de la estru c tu ra .
APÉNDICE
S e p ro p o rc io n a un m é to do para un e s tim a d o r de ru ido de fo n d o para e s tim a c ió n de ru ido de fo n d o en una se ñ a l de aud io, en el que la señ a l de a u d io co m p re n d e una p lu ra lida d de s e g m e n to s de señ a l de aud io , c o m p re n d ie n d o el m é to d o :
1) o b te n e r (201) al m e no s un p a rá m e tro a so c ia d o con un se g m e n to de se ñ a l de aud io , en b ase a:
- una p rim e ra g a n a n c ia de p red icc ió n linea l ca lcu la d a com o el co c ie n te e n tre una señ a l re s idu a l (E (0 )) de una p red icc ió n linea l de o rde n 0 y una señ a l re s idu a l (E (2 )) de una p red icc ió n linea l de se g u n d o o rde n para el se g m e n to de señ a l de a u d io ; y
- una se g u n d a g a n a n c ia de p red icc ió n linea l ca lcu la d a com o el co c ie n te e n tre una señ a l re s idu a l (E (2 )) de una p red icc ió n linea l de se g u n d o o rde n y una señ a l re s idu a l (E (16 )) de una p red icc ió n linea l de 16° o rde n para el se g m e n to de se ñ a l de aud io;
2 ) d e te rm in a r (202) si el se g m e n to de señ a l de a ud io co m p re n d e una pausa , es dec ir, está lib re de co n te n id o a c tivo ta l co m o v o z y m úsica , en base al m e no s en el al m e no s un p a rá m e tro ob ten ido ; y:
cu a n d o el se g m e n to de señ a l de a ud io co m p re n d e una pausa:
- a c tu a liz a r (203 ) una e s tim a c ió n de ru ido de fo n d o en base al se g m e n to de señ a l de aud io.
La o b ten c ión de l al m e no s un p a rá m e tro p ue de c o m p re n d e r lim ita r las g a n a n c ia s de p re d icc ió n linea l p rim e ra y seg un da , para to m a r v a lo re s en un in te rva lo p red e fin ido .
La o b ten c ión de l al m enos un p a rá m e tro p uede c o m p re n d e r la c re a c ió n de al m e no s una e s tim a c ió n a la rgo p lazo de cad a una de las g a n a n c ia s de p red icc ió n linea l p rim e ra y seg un da , p o r e je m p lo , p o r m e d io de filtra d o de paso bajo, en el que la e s tim a c ió n a la rgo p lazo se basa a d ic io n a lm e n te en las c o rre sp o n d ie n te s g a n a n c ia s de p red icc ió n lineal a so c ia d a s con al m e no s un se g m e n to de se ñ a l de a ud io an te rio r.
La o b te n c ió n del al m e no s un p a rá m e tro p ue de c o m p re n d e r d e te rm in a r una d ife re n c ia e n tre una de las g a n a n c ia s de p red icc ió n linea l a so c ia d a s con el se g m e n to de se ñ a l de a ud io y una e s tim a c ió n a la rgo p lazo de d ich a g a n a n c ia de p red icc ió n linea l y /o e n tre dos e s tim a c io n e s d ife re n te s a la rgo p lazo a so c ia d a s con una g a n a n c ia de p red icc ió n lineal.
La o b te n c ió n del al m e no s un p a rá m e tro p ue de c o m p re n d e r un f iltra d o de p aso ba jo de las g a n a n c ia s p rim e ra y se g u n d a de p red icc ió n lineal.
Los co e fic ie n te s de l filtro de al m e no s un filtro de paso ba jo p ue de n d e p e n d e r de una re lac ió n e n tre una g a n a n c ia de p red icc ió n linea l a so c ia d a con el se g m e n to de se ñ a l de a ud io y un p ro m e d io de una g a n a n c ia de p red icc ió n lineal co rre sp o n d ie n te o b te n id a sob re la b ase de una p lu ra lid a d de se g m e n to s a n te r io re s de señ a l de aud io.
La d e te rm in a c ió n de si el se g m e n to de señ a l de a ud io co m p re n d e una pau sa p ue de b a sa rse a d ic io n a lm e n te en una m e d id a de ce rca n ía e sp e c tra l a so c ia d a con el se g m e n to de señ a l de aud io.
El m é to do p uede c o m p re n d e r a d ic io n a lm e n te la o b ten c ión de la m e d id a de la c e rca n ía e sp e c tra l en base a las e n e rg ía s para un co n ju n to de b a n da s de fre cu e n c ia del se g m e n to de señ a l de a ud io y e s tim a c io n e s de ru ido de fo n d o c o rre sp o n d ie n te s al co n ju n to de b an da s de fre cu e n c ia . D u ra n te un p e río do de in ic ia liza c ión , se p ue de u sa r un v a lo r in ic ia l, E min com o las e s tim a c io n e s de ru ido de fo n d o en b ase a las cua les se o b tie n e la m e d id a de ce rca n ía e sp ec tra l.
S e p ro p o rc io n a a d ic io n a lm e n te un e s tim a d o r (1100 ) de ru ido de fondo , para e s tim a r el ru ido de fo n d o en una señal de a ud io q ue co m p re n d e una p lu ra lida d de se g m e n to s de señ a l de aud io , e s ta n d o co n fig u ra d o el e s tim a d o r de ru ido de fo n d o para:
1) o b te n e r al m enos un p a rá m e tro en base a:
- una p rim e ra g a n a n c ia de p red icc ió n linea l ca lcu la d a co m o el co c ie n te e n tre una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de o rden 0 y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de se g u n d o o rde n para el se g m e n to de señ a l de aud io; y
- una se g u n d a g a n a n c ia de p red icc ió n linea l ca lcu la d a com o el co c ie n te e n tre una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de se g u n d o o rde n y una señ a l re s idu a l p ro ve n ie n te de una p red icc ió n linea l de 16° o rde n para el
se g m e n to de señ a l de aud io;
2 ) d e te rm in a r si el se g m e n to de señ a l de a ud io co m p re n d e una pausa , es dec ir, si e stá lib re de co n te n id o a c tivo ta l co m o v o z y m úsica , b a sá n d o se al m e no s en el al m e no s un p a rá m e tro ; y
cu a n d o el se g m e n to de señ a l de a ud io co m p re n d e una p au sa :
- a c tu a liz a r una e s tim a c ió n de ru ido de fo n d o en base al se g m e n to de señ a l de a u d io .
E l e s tim a d o r de ru ido de fo n d o de a cu e rd o con la re iv in d ica c ió n 10, en el q ue la o b te n c ió n del al m e no s un p a rá m e tro co m p re n d e lim ita r las g a n a n c ia s p rim e ra y s e g u n d a de p red icc ió n linea l para to m a r va lo re s en un in te rva lo p re d e fin id o .
E n el e s tim a d o r de ru ido de fondo , la o b te n c ió n de l al m e no s un p a rá m e tro p ue de co m p re n d e r: c re a r al m e no s una e s tim a c ió n a la rgo p lazo de cada una de las g a n a n c ia s de p re d icc ió n linea l p rim e ra y seg un da , p o r e je m p lo , por m e d io de f iltra d o de paso bajo, en el q u e la e s tim a c ió n a la rgo p lazo se b asa a d ic io n a lm e n te en las g a n a n c ia s de p red icc ió n linea l c o rre sp o n d ie n te s a so c ia d a s con al m e no s un se g m e n to de señ a l de a ud io an terio r.
En el e s tim a d o r de ru ido de fondo , la o b te n c ió n de al m e no s un p a rá m e tro p uede co m p re n d e r: d e te rm in a r una d ife re n c ia e n tre una de las g a n a n c ia s de p red icc ió n linea l a so c ia d a s con el se g m e n to de señ a l de a ud io y una e s tim a c ió n a la rgo p lazo de d ich a g a n a n c ia de p red icc ió n linea l y /o e n tre d os e s tim a c io n e s d ife re n te s a la rgo p lazo a so c ia d a s con una g a n a n c ia de p red icc ió n linea l.
En el e s tim a d o r de ru ido de fondo , la o b te n c ió n del al m e no s un p a rá m e tro p uede c o m p re n d e r un filtro de paso bajo de las g a n a n c ia s p rim e ra y se g u n d a de p red icc ió n linea l.
En el e s tim a d o r de ru ido de fondo , los co e fic ie n te s de filtro de l al m e no s un filtro de paso ba jo p ue de n d e p e n d e r de una re lac ió n e n tre una g a n a n c ia de p red icc ió n linea l a so c ia d a con el se g m e n to de señ a l de a ud io y un p ro m e d io de una g a n a n c ia de p red icc ió n linea l co rre sp o n d ie n te o b te n id a en b ase a una p lu ra lida d de s e g m e n to s a n te r io re s de señ a l de a ud io
El e s tim a d o r de ru ido de fon do p ue de co n fig u ra rse para b a sa r a d ic io n a lm e n te la d e te rm in a c ió n de si el se g m e n to de señ a l de a ud io co m p re n d e una p ausa en una m e d id a de c e rca n ía e sp e c tra l a so c ia d a con el se g m e n to de señ a l de aud io.
El e s tim a d o r de ru ido de fon do p ue de e s ta r co n fig u ra d o para o b te n e r la m e d id a de la c e rca n ía e sp e c tra l en base a las e n e rg ía s para un co n ju n to de b a n da s de fre cu e n c ia de l se g m e n to de señ a l de a ud io y de las e s tim a c io n e s de ru ido de fo n d o c o rre sp o n d ie n te s al co n ju n to de b an da s de fre cu en c ia .
El e s tim a d o r de ru ido de fo n d o p uede c o n fig u ra rse para u sa r un v a lo r in ic ia l, E min, com o las e s tim a c io n e s de ru ido de fo n d o en base a las cua les se o b tie n e la m e d id a de c e rca n ía e sp ec tra l, d u ra n te un p e río d o de in ic ia liza c ión .
S e p ro p o rc io n a a d ic io n a lm e n te un d e te c to r de a c tiv id a d de son ido , S AD , que co m p re n d e el e s tim a d o r de ru ido de fo n d o com o se d e sc rib ió a n te rio rm e n te .
S e p ro p o rc io n a a d ic io n a lm e n te un có d e c q ue co m p re n d e un e s tim a d o r de ru ido de fo n d o com o se d esc rib ió a n te rio rm e n te .
S e p ro p o rc io n a a d ic io n a lm e n te un d isp o s itivo in a lá m b rico q ue co m p re n d e un e s tim a d o r de ru ido de fo n d o com o se d e sc rib ió a n te rio rm e n te .
S e p ro p o rc io n a a d ic io n a lm e n te un n odo de red que co m p re n d e un e s tim a d o r de ru ido de fo n d o com o se d esc rib ió a n te rio rm e n te .
S e p ro p o rc io n a a d ic io n a lm e n te un p ro g ra m a in fo rm á tico , q ue co m p re n d e in s tru cc io n e s que, cu a n d o se e je cu ta n en al m enos un p roce sa d o r, hacen que el al m e no s un p ro c e sa d o r lleve a cab o el m é to do com o se d esc rib ió a n te rio rm e n te . T a m b ié n se p ro p o rc io n a un so p o rte q ue co n tie n e d ich o p rog ra m a in fo rm á tico , en el q ue el so p o rte es un e le m e n to de e n tre una señ a l e le c tró n ica , una se ñ a l ó p tica , una se ñ a l de rad io o un m e d io de a lm a ce n a m ie n to leg ib le p o r o rdenador.
ANEXO A
Las re fe re n c ia s a las fig u ra s en el te x to a co n tin u a c ió n son re fe re n c ia s a las fig u ra s A 2 -A 9 , de m o do que la "fig u ra 2" en a d e la n te co rre sp o n d e a la fig u ra A 2 en los d ibu jos .
La fig u ra 2 es un d ia g ra m a de flu jo que ilus tra una re a liza c ió n a m o do de e je m p lo de un m é to do para la e s tim a c ió n
de l ru ido de fon do de a cu e rd o con la te c n o lo g ía p ro p u e s ta en el p re se n te d o cu m e n to . El m é to do e stá d e s tin a d o a s e r re a liza do p o r un e s tim a d o r de ru ido de fondo , q ue p ue de s e r p a rte de un S AD . El e s tim a d o r de ru ido de fondo , y el S AD , pueden e s ta r c o m p re n d id o s a d ic io n a lm e n te en un c o d ific a d o r de aud io, que a su v e z p uede e s ta r c o m p re n d id o en un d isp o s itivo in a lá m b rico o un n odo de red. P ara el e s tim a d o r de ru ido de fo n d o d escrito , a ju s ta r la e s tim a c ió n de ru ido h ac ia a ba jo no e stá re s tring ido . P ara cad a tra m a se ca lcu la una p os ib le n ue va e s tim a c ió n de ru ido de sub b a n d a , in d e p e n d ie n te m e n te de si la tra m a es de fo n d o o co n te n id o activo , si el nue vo v a lo r es m ás bajo q ue el actua l, se usa d ire c ta m e n te , ya que lo m ás p ro b a b le es q ue sea de una tra m a de fondo . La s ig u ie n te lóg ica de e s tim a c ió n de ru ido es un se g u n d o paso en el q ue se d ec ide si se p ue de a u m e n ta r la e s tim a c ió n de ru ido de su b b a n d a y, si es así, cuá n to , el a u m e n to se basa en la p os ib le nue va e s tim a c ió n de ru ido de su b b a n d a ca lcu la d a a n te rio rm e n te . B á s icam en te , e sta lóg ica fo rm a la d e c is ió n de q ue la tra m a a c tu a l es una tra m a de fondo , y, si esto no es seg uro , p uede p e rm itir un a u m e n to m e n o r en co m p a ra c ió n con lo q ue se e s tim ó o rig in a lm e n te .
El m é to do ilus tra do en la figu ra 2 co m p re n d e : cu a n d o un n ive l de e n e rg ía de un se g m e n to de señ a l de a ud io es m a yo r q ue un u m bra l m ás a lto 202:1 q ue un n ive l de e n e rg ía m ín im o a la rgo p lazo, lt_m in , o, cu a n d o el n ive l de e n e rg ía de l se g m e n to de señ a l de a ud io es m e n o r que un u m bra l m ás a lto 202:2 q ue la lt_m in , pero no se d e tec ta n in g un a pau sa 204:1 en el se g m e n to de señ a l de aud io:
- re d u c ir 206 una e s tim a c ió n de ru ido de fo n d o a c tu a l cu a n d o se d e te rm in a que el se g m e n to de se ñ a l de a ud io 203 :2 co m p re n d e m úsica , y la e s tim a c ió n de ru ido de fo n d o a c tu a l e xce d e un v a lo r m ín im o 205 :1, d e n o ta d o "T " en la figu ra 2, y e je m p lifica d o a d ic io n a lm e n te , p o r e je m p lo , co m o 2 *E _ M IN en el có d ig o a con tin u a c ió n .
A l re a liza r lo a n te r io r y p ro p o rc io n a r la e s tim a c ió n del ru ido de fon do a un SAD , el S A D e stá h a b ilita d o para re a liza r una d e tecc ión de a c tiv id a d de so n id o m ás a de cu a d a . A d e m á s, se h ab ilita la re cu p e ra c ió n de a c tu a liza c io n e s de e s tim a c ió n de ru ido de fo n d o e rró ne as .
El n ive l de e n e rg ía de l se g m e n to de se ñ a l de a ud io u tiliza d o en el m é to do d e sc rito a n te r io rm e n te p uede d e n o m in a rse a lte rn a tiva m e n te , p o r e je m p lo , com o la e n e rg ía de tra m a actua l, Etot, o com o la e n e rg ía de l se g m e n to de señal, o tra m a , que p uede ca lcu la rse su m a n d o las e n e rg ía s de su b b a n d a p ara el se g m e n to de señ a l actua l.
La o tra ca ra c te rís tica de e n e rg ía u tiliza d a en el m é to d o an te rio r, es dec ir, el n ive l de e n e rg ía m ín im a a la rgo p lazo, lt_m in , es una e s tim a c ió n , q ue se d e te rm in a sob re una p lu ra lida d de se g m e n to s o tra m a s a n te r io re s de señ a l de aud io. A lte rn a tiva m e n te , la lt_m in p od ría den o ta rse , p o r e je m p lo , E to tJ J p . U na m a n e ra b ás ica de d e riv a r la lt_m in se ría u tiliz a r el v a lo r m ín im o del h is to ria l de la e n e rg ía de tra m a a c tu a l sob re c ie rto n ú m e ro de tra m a s p asad as . Si el v a lo r ca lcu la d o com o: "e n e rg ía de tra m a a c tu a l - e s tim a c ió n m ín im a a la rgo p la zo " e stá p o r d e b a jo de un v a lo r um bra l, d en o tad o , p o r e je m p lo , TH R 1, se d ice , aqu í, q ue la e n e rg ía de tra m a a c tua l e stá ce rca de la e n e rg ía m ín im a a la rgo p lazo, o q ue está p róx im a a la e n e rg ía m ín im a la rgo p lazo. Es dec ir, q ue cu a n d o (E to t - lt_ m in ) <T H R 1, la e n e rg ía de tra m a actua l, Etot, se p ue de d e te rm in a r 202 para q ue e sté ce rca de la e n e rg ía m ín im a a la rgo p lazo lt_m in . El ca so en el q ue (E to t - lt_m in ) = TH R1 p uede re fe rirse a cu a lq u ie ra de las d ec is io ne s , 202:1 o 202:2 , d e p e n d ie n d o de la im p lan ta c ión . La n u m e ra c ió n 202:1 en la fig u ra 2 ind ica la d ec is ió n de que la e n e rg ía de tra m a a c tu a l no e s té ce rca de la lt_m in , m ie n tra s q ue 202:2 ind ica la d ec is ió n de que la e n e rg ía de tra m a a c tu a l e stá ce rca de la lt_m in . O tra n um e ra c ió n en la fig u ra 2, con la fo rm a X X X :Y , ind ica las d e c is io n e s co rre sp o n d ie n te s . La ca ra c te rís tica lt_m in se d e sc rib irá con m ás d e ta lle a con tin u a c ió n .
El v a lo r m ín im o, q ue la e s tim a c ió n de ru ido de fo n d o a c tu a l va a exce de r, con el fin de s e r re duc ido , p ue de a su m irse q ue es ce ro o un v a lo r p os itivo bajo . P o r e je m p lo , com o se e je m p lifica rá en el cód igo a co n tin u a c ió n , una e n e rg ía to ta l a c tua l de la e s tim a c ió n de fondo , q ue p ue de d e n o ta rse com o "to ta lN o ise " (ru id o to ta l) y d e te rm in a rse , por e je m p lo , co m o 10* lo g 10Ib a c k r [i], p uede re q u e rirse que e xce d a un v a lo r m ín im o de ce ro con el fin de que se cu e s tio n e la re du cc ió n . A lte rn a tiva m e n te , o a d ic io n a lm e n te , cad a e n tra d a en un v e c to r backr[i], q ue co m p re n d e las e s tim a c io n e s de fo n d o de sub b a n d a , se p uede c o m p a ra r con un v a lo r m ín im o, E_M IN , con el fin de que se rea lice la re du cc ió n . En el s ig u ie n te e je m p lo de cód igo , E _M IN es un v a lo r p o s itivo bajo.
C ab e se ñ a la r que, de a cu e rd o con una re a liza c ió n p re fe rid a de la so lu c ió n s u g e rid a en el p re se n te d ocum e n to , la d ec is ió n de si el n ive l de e n e rg ía del se g m e n to de se ñ a l de a ud io es m ás a lto que un u m bra l q ue la lt_m in se basa ú n ica m e n te en la in fo rm a c ión d e riva d a de la se ñ a l de a u d io de e n tra da , es dec ir, q ue no se basa en la re tro a lim e n ta c ió n de una d e c is ió n del d e te c to r de a c tiv id a d de son ido .
La d e te rm in a c ió n 204 de si una tra m a a c tu a l co m p re n d e una p ausa o no, p uede re a liza rse de d ife re n te s m a n e ra s en base a uno o m ás c rite rios . Un c rite r io de pau sa ta m b ié n p ue de d e n o m in a rse d e te c to r de pausa . S e pod ría a p lic a r un só lo d e te c to r de pau sa o una co m b in a c ió n de d ife re n te s d e te c to re s de pausa . C on una co m b in a c ió n de d e te c to re s de pausa , cada uno se p uede u tiliz a r para d e te c ta r p au sa s en d ife re n te s co n d ic io n e s . Un in d ic a d o r de q ue una tra m a a c tu a l p uede c o m p re n d e r una pausa , o ina c tiv id ad , es q ue una ca ra c te rís tica de co rre la c ió n para la tra m a sea baja, y que v a r ia s tra m a s a n te r io re s ta m b ié n h ayan te n id o c a ra c te rís tica s de ba ja co rre la c ió n . Si la e n e rg ía a c tu a l está ce rca de la e n e rg ía m ín im a a la rgo p lazo y se d e te c ta una pausa , el ru ido de fo n d o se puede a c tu a liz a r de a cu e rd o con la e n tra d a actua l, co m o se ilus tra en la fig u ra 2. Se p uede c o n s id e ra r q ue se d e te c ta una pau sa cua nd o , a d e m á s de eso, el n ive l de e n e rg ía de l se g m e n to de se ñ a l de a ud io es in fe rio r a un u m bra l s u p e r io r a la lt_m in : se ha d e te rm in a d o que un n úm e ro p re d e fin id o de s e g m e n to s de se ñ a l de a ud io a n te r io re s c o n se cu tivo s no
co m p re n d e una señ a l a c tiva y /o una d in á m ica de la señ a l de a ud io su p e ra un um bra l. Esto ta m b ié n se ilus tra en el e je m p lo de cód igo a d ic io n a lm e n te m ás a de lan te .
L a re du cc ió n 206 de la e s tim a c ió n de ru ido de fo n d o p e rm ite la m a n ip u la c ió n de s itu a c io n e s en las q u e la e s tim a c ió n de ru ido de fo n d o se ha co n ve rtid o en "d e m a s ia d o a lta ", es d e c ir, en re lac ió n con un ru ido de fo n d o c ie rto . Esto ta m b ié n p od ría e xp re sa rs e , p o r e je m p lo , com o q u e la e s tim a c ió n del ru ido de fo n d o se d e sv ía del ru ido de fo n d o real. U na e s tim a c ió n de ru ido de fo n d o d e m a s ia d o a lta p uede d a r lu g a r a d e c is io n e s in a d e cu a d a s p o r parte de l SAD, d o n d e se d e te rm in a q ue el se g m e n to de señ a l a c tu a l e sté ina c tivo inc lu so a u n q u e co m p re n d a vo z o m ú s ica activa . U na razón para que la e s tim a c ió n de ru ido de fo n d o sea d e m a s ia d o a lta es, p o r e je m p lo , q ue e x is tan a c tu a liza c io n e s de ru ido de fo n d o e rró n e a s o no d e se a d a s en la m úsica , d on de la e s tim a c ió n de ru ido ha c o n fu n d id o la m ú s ica con el fo n d o y ha p e rm itid o a u m e n ta r la e s tim a c ió n de ru ido . El m é to do d ivu lg a d o p e rm ite q ue ta l e s tim a c ió n de ru ido de fo n d o a c tu a liza d a e rró n e a m e n te se a jus te , p o r e je m p lo , cu a n d o se d e te rm in e q ue la s ig u ie n te tra m a de la se ñ a l de e n tra d a c o m p re n d e rá m úsica . E ste a ju s te se re a liza m e d ia n te una re du cc ió n fo rza d a de la e s tim a c ió n del ru ido de fondo , d on de la e s tim a c ió n de l ru ido d esc ie n de , inc lu so si la e n e rg ía de l se g m e n to de la señ a l de e n tra d a a c tu a l es m a yo r q ue la e s tim a c ió n de l ru ido de fo n d o actua l, p o r e je m p lo , en una sub ba nd a . O b sé rve se q ue la lóg ica d escrita a n te r io rm e n te para la e s tim a c ió n de l ru ido de fon do se u tiliza p ara c o n tro la r el a u m e n to de la e n e rg ía de la su b b a n d a de fondo . S ie m p re se p e rm ite re d u c ir la e n e rg ía de la su b b a n d a cu a n d o la e n e rg ía de la su b b a n d a de la tra m a actua l es in fe rio r q ue la e s tim a c ió n de l ru ido de fondo . E sta fu n c ió n no se m u e s tra e xp líc ita m e n te en la figu ra 2. Ta l d ism in u c ió n g e n e ra lm e n te tie n e una co n fig u ra c ió n fija p a ra el ta m a ñ o del paso. S in e m ba rg o , la e s tim a c ió n del ru ido de fo n d o só lo d e b e ría a u m e n ta rse en a so c ia c ió n con la lóg ica de d e c is ió n de a cu e rd o con el m é to d o d escrito a n te rio rm e n te . C u a n d o se d e te c te una pausa , las c a ra c te rís tica s de e n e rg ía y co rre la c ió n ta m b ié n se p ueden usa r para d e c id ir cóm o de g ra n d e d e b e ría s e r el ta m a ñ o de l paso de a ju s te p ara el a u m e n to de la e s tim a c ió n de fon do a n te s de q ue se h aga la a c tu a liza c ió n real de l ru ido de fondo .
C om o se m e nc ion ó a n te rio rm e n te , a lg u n o s s e g m e n to s de m ú s ica p ueden s e r d ifíc ile s de se p a ra r del ru ido de fondo , d eb ido a q ue son m u y ru idosos. De e s te m odo, la lóg ica de a c tu a liza c ió n de ru ido p uede p e rm itir a cc id e n ta lm e n te a u m e n ta r las e s tim a c io n e s de e n e rg ía de sub b a n d a , inc lu so a u n q u e la se ñ a l de e n tra d a fue ra una señ a l activa . Esto p ue de c a u s a r p rob lem as , ya que la e s tim a c ió n de l ru ido p ue de s e r m ás a lta de lo que d e b e ría ser.
En los e s tim a d o re s de ru ido de fo n d o de la té c n ica an te rio r, las e s tim a c io n e s de e n e rg ía de su b b a n d a só lo pod ían re d u c irse cu a n d o una e n e rg ía de su b b a n d a de e n tra d a e s ta b a p o r d eb a jo de una e s tim a c ió n de ru ido actua l. S in e m ba rg o , d ado que a lg u n o s se g m e n to s de m ú s ica p ue de n s e r d ifíc ile s de se p a ra r del ru ido de fondo , d e b id o a que son m uy ru ido sos , los in ve n to re s se han d ado cu e n ta de q ue se n eces ita una e s tra te g ia de re cu p e ra c ió n para la m úsica . En las re a liza c io n e s d e sc rita s en el p re se n te d o cu m e n to , ta l re cu p e ra c ió n se p ue de re a liza r m e d ia n te re du cc ió n fo rza d a de la e s tim a c ió n del ru ido cu a n d o la señ a l de e n tra d a v u e lve a c a ra c te rís tica s s im ila re s a la m úsica . E s to es, cu a n d o la e n e rg ía y la lóg ica de p ausa d e sc rita s a n te r io rm e n te im p ide n , 202 :1 , 204 :1 , q ue se a u m e n te la e s tim a c ió n de ru ido, se p rue b a 203 si se so sp e ch a q ue la e n tra d a es m úsica , y, si es a s í 203 :2 , las e n e rg ía s de b an da se re du cen 206 en una p e q u e ñ a can tida d p o r cad a tra m a h asta que las e s tim a c io n e s de ru ido a lca n ce n el n ive l m ás ba jo 205 :2.
Un e s tim a d o r de fo n d o com o los d e sc rito s a n te r io rm e n te p uede e s ta r c o m p re n d id o o im p la n ta d o en un V A D o S A D y /o en un c o d ific a d o r y /o un d e co d ifica d o r, d on de el c o d ific a d o r y /o d e c o d ifica d o r p ue de im p la n ta rse en un d isp o s itivo de usuario , ta l com o un te lé fo n o m óvil, una o rd e n a d o r portá til, una ta b le ta , etc. El e s tim a d o r de fon do ta m b ié n pod ría e s ta r c o m p re n d id o en un nodo de red, ta l com o una p a sa re la de m ed ios, p o r e je m p lo , com o p arte de un códec.
L a fig u ra 5 es un d ia g ra m a de b lo q ue s que ilus tra e sq u e m á tica m e n te una im p la n ta c ió n de un e s tim a d o r de fo n d o de a cu e rd o con una re a liza c ió n a m o do de e je m p lo . Un b lo q ue 51 de e n tra m a d o de e n tra d a d iv id e p rim e ro la señ a l de e n tra d a en tra m a s de lon g itu d a de cu a d a , p o r e je m p lo , 5 -30 ms. P a ra cad a tra m a , un e x tra c to r 52 de ca ra c te rís tica s ca lcu la al m e no s las s ig u ie n te s ca ra c te rís tica s de la e n trada : 1) El e x tra c to r de c a ra c te rís tica s a n a liza la tra m a en el d o m in io de fre cu e n c ia y se ca lcu la la e n e rg ía para un co n ju n to de su b b a n d a s . L a s s u b b a n d a s son las m ism as su b b a n d a s q ue se va n a u sa r para la e s tim a c ió n de fondo . 2 ) El e x tra c to r de c a ra c te rís tica s a n a liza a d ic io n a lm e n te la tra m a en el d o m in io del t ie m p o y ca lcu la una co rre la c ió n d e n o m in a d a , p o r e je m p lo , c o r_ e s t y /o lt_co r_e s t, que se u tiliza para d e te rm in a r si la tra m a co m p re n d e co n te n id o a c tivo o no. 3 ) El e x tra c to r de c a ra c te rís tica s u tiliza a d ic io n a lm e n te la e n e rg ía to ta l de la tra m a actua l, p o r e je m p lo , d e n o m in a d a Etot, para a c tu a liz a r las ca ra c te rís tica s de l h is to ria l de e n e rg ía de las tra m a s de e n tra d a a c tu a le s y a n te rio re s , ta l com o la e n e rg ía m ín im a a la rgo p lazo, lt_m in . Las c a ra c te rís tica s de co rre la c ió n y e n e rg ía se su m in is tra n d e sp u é s al b lo q ue 53 de lóg ica de d e c is ió n de a c tu a lizac ión .
A qu í, se im p lan ta una lóg ica de d ec is ió n , de a cu e rd o con la so lu c ió n d e sc rita en el p re se n te d o cu m e n to , en el b lo q ue 53 de lóg ica de d ec is ió n de a c tu a liza c ió n , d o n d e las c a ra c te rís tica s de co rre la c ió n y e n e rg ía se usan para to m a r d e c is io n e s sob re si la e n e rg ía de tra m a a c tu a l e stá ce rca o no de una e n e rg ía m ín im a a la rgo p lazo; sob re si la tra m a a c tu a l es parte o no de una pau sa (se ña l no activa); y si la tra m a a c tu a l es parte de la m ú s ica o no. La so lu c ió n de a cu e rd o con las re a liza c io n e s d e sc rita s en el p re se n te d o cu m e n to im p lica có m o se usan e stas c a ra c te rís tica s y d e c is io n e s para a c tu a liz a r la e s tim a c ió n del ru ido de fo n d o de una m a n e ra co n tu n d e n te .
A con tin u a c ió n , se d e sc rib irá n a lg u n o s d e ta lle s de im p la n ta c ió n de re a liza c io n e s de la so lu c ió n d ivu lg a d a en el p re se n te d ocum e n to . Los d e ta lle s de im p la n ta c ió n a co n tin u a c ió n se to m a n de una re a liza c ió n en un c o d ifica d o r b asad o en el G .718. Esta re a liza c ió n u tiliza a lg u n a s de las c a ra c te rís tica s d e sc rita s en W O 2011 /049514 y W O 2011/049515 ,.
Las s ig u ie n te s c a ra c te rís tica s se d e fine n en el G .718 m o d ifica d o d e sc rito en el d o cu m e n to W O 2011 /09514
Las s ig u ie n te s c a ra c te rís tica s se d e fine n en el G .718 m o d ifica d o d e sc rito en el d o cu m e n to W O 2011 /09515
T a m b ié n la ca ra c te rís tica E to t_ v_ h fue d e fin id a en el d o cu m e n to W O 2011 /049514 , pero en e sta re a liza c ió n se ha m o d ifica d o y a ho ra se im p la n ta de la s ig u ie n te m a n e ra :
Etot_v = (íloat) fabs(*Etot_last - Etot);
if(Etot_v < 7.0f) /*ncte that no VAD flag or similar is used here*/
(
*Etot_v_h -= O.Olr;
if (Etotv > *Etot_v_h)
{ir ((*Etot_v -*Etot_v_h) > 0.2f)
i
*Etot v h = *Etot v h - 3.1f;
e1se
*Etot_v_h = Etot_v; }}}
La E to t_ v m ide la v a r ia c ió n de e n e rg ía a b so lu ta e n tre tra m a s , es dec ir, el v a lo r a bso lu to de la v a r ia c ió n de e n e rg ía in s ta n tá n e a e n tre tra m a s . En el e je m p lo a n te rio r, se d e te rm in a q ue la v a r ia c ió n de e n e rg ía e n tre d os tra m a s es "b a ja " cu a n d o la d ife re n c ia e n tre las tra m a s ú ltim a y a c tu a l es m e n o r a 7 u n idades . E s to se u tiliza com o un in d ica d o r de q ue la tra m a a c tu a l (y la tra m a a n te r io r) p ue de s e r p a rte de una pausa , es dec ir, c o m p re n d e r só lo ru ido de fondo. S in em ba rg o , una va r ia c ió n ba ja ta l p od ría e n co n tra rse a lte rn a tiva m e n te , p o r e je m p lo , en m e d io de una rá faga de voz. La va r ia b le E to t_ la s t es el n ive l de e n e rg ía de tra m a ante rio r.
Los p asos a n te r io re s d e sc rito s en el có d ig o se p ueden re a liz a r com o p arte de los pasos "co rre la c ió n c a lc u la r/a c tu a liz a r y e n e rg ía " en el d ia g ra m a de flu jo en la fig u ra 2, es dec ir, com o parte de las a cc io n e s 201. En la im p la n ta c ió n W O 2011 /049514 , se u tilizó un in d ic a d o r de V A D p ara d e te rm in a r si el se g m e n to de señ a l de a ud io a c tu a l co m p re n d ía ru ido de fo n d o o no. Los in ve n to re s se han d ado cu e n ta de q ue la d e p e n d e n c ia de la in fo rm a c ión de re tro a lim e n ta c ió n p uede s e r p rob lem á tica . En la so lu c ió n d ivu lg a d a en el p re se n te d o cu m e n to , la d ec is ió n de a c tu a liz a r o no la e s tim a c ió n del ru ido de fo n d o no d e p e n d e de una d e c is ió n de l V A D (n i de l SAD ).
A d e m á s, en la so lu c ió n d e sc rita en el p re se n te d o cu m e n to , las s ig u ie n te s c a ra c te rís tica s , q ue no son parte de la im p la n ta c ió n W O 2011 049514 , se p ue de n c a lc u la r/a c tu a liz a r co m o p arte de los m ism os pasos, es dec ir, los pasos co rre la c ió n c a lc u la r/a c tu a liza c ió n y e n e rg ía q ue se ilus tra n en la fig u ra 2. E s tas c a ra c te rís tica s ta m b ié n se u tilizan en la lóg ica de d ec is ió n de si a c tu a liz a r o no la e s tim a c ió n de fondo.
C on el fin de lo g ra r una e s tim a c ió n de ru ido de fo n d o m ás a de cu a d a , se de fine n en a d e la n te una serie de ca ra c te rís tica s . P o r e je m p lo , se de fine n las n u e va s fu n c io n e s re la c io n a d a s con la c o rre la c ió n , c o r_ e s t y lt_co r_e s t. La ca ra c te rís tica c o r_ e s t es una e s tim a c ió n de la co rre la c ió n en la tra m a a ctua l, y co r_ e s t se usa ta m b ié n para p ro d u c ir lt_co r_e s t, q u e es una e s tim a c ió n su a v iza d a a la rgo p lazo de la co rre la c ió n .
cor_est = (cor[0] cor[1] cor[2]) / 3.0f;
st->lt_cor_est = 0.01f*cor_est 0.99f * st->lt_cor_est;
C om o se d e fin ió a n te r io rm e n te , co r[i] es un v e c to r que c o m p re n d e e s tim a c io n e s de co rre la c ió n , y co r[0 ] re p re se n ta el fina l de la tra m a a c tua l, c o r [1] re p re se n ta e l co m ie n zo de la tra m a ac tu a l y co r[2] re p re se n ta e l fina l de una tra m a a n te rio r.
A d e m á s , se ca lcu la una nue va ca ra c te rís tica , lt_ tn _ tra ck , que p ro p o rc io n a una e s tim a c ió n a la rgo p lazo de la fre cu e n c ia con la que las e s tim a c io n e s de fo n d o están ce rca de la e n e rg ía de tra m a a ctua l. C u a nd o la e n e rg ía de tra m a ac tu a l e stá lo s u fic ie n te m e n te ce rca de la e s tim a c ió n de fo n d o a c tua l, e sto se re g is tra p o r una co n d ic ió n que señ a la (1 /0) si el fo n d o e stá ce rca o no. E sta señ a l se u tiliza para fo rm a r el lt_ tn _ tra ck de m e d id a a la rgo p lazo.
st->lt_tn_track = 0,03f* (Etot - st->totalNoise < 10) 0.97f*st->lt_tn_track;
En e ste e je m p lo , se a ñ a d e 0 ,03 cu a n d o la e n e rg ía de tra m a a c tu a l e stá ce rca de la e s tim a c ió n de ru ido de fo n d o , y, de o tro m odo, el ú n ico té rm in o re s ta n te es 0 ,97 ve ce s el v a lo r a n te rio r. En e ste e je m p lo , "ce rca " se d e fin e co m o que la d ife re n c ia e n tre la e n e rg ía de tra m a a c tua l, E tot, y la e s tim a c ió n del ru ido de fon do , to ta lN o ise , es in fe rio r a 10 u n id ad es . T a m b ié n son p o s ib le s o tras d e fin ic io n e s de "ce rca".
A d e m á s , la d is ta n c ia e n tre la e s tim a c ió n de fo n d o a c tu a l, E tot, y la e n e rg ía de tra m a ac tu a l, to ta lN o ise , se usa para d e te rm in a r una ca ra c te rís tica , lt_ tn _d is t, que p ro p o rc io n a una e s tim a c ió n a la rgo p lazo de e sta d is ta n c ia . Se crea una ca ra c te rís tica s im ila r, lt_E llp _d is t, para la d is ta n c ia en tre la e n e rg ía m ín im a a la rgo p lazo, E to t_ l_ lp , y la e n e rg ía de tra m a a ctua l, E tot.
st->lt_tn_dist = 0.03f (Etot - st->totalNoise) 0.97fst->lt_tn_dist;
st->lt_Ellp_dist = 0.03f (Etot - st->Etot_l_lp) 0.97f st->lt_Ellp_dist;
La ca ra c te rís tica h a rm _ co r_ cn t, in tro d u c id a a n te r io rm e n te , se usa para c o n ta r e l n úm e ro de tra m a s d esde la ú ltim a tra m a que tie n e una co rre la c ió n o un e ve n to a rm ó n ico , es d ec ir, d e sd e una tra m a de cu m p lim ie n to de c ie rtos c rite r io s re la c io n a d o s con la a c tiv id a d . E sto es, cu a n d o la co n d ic ió n h a rm _ co r_ cn t= = 0 , e sto im p lica que la tra m a a c tu a l es, p ro b a b le m e n te , una tra m a a ctiva , ya que m u es tra co rre la c ió n o un e ve n to a rm ó n ico . Esto se u tiliza para fo rm a r una e s tim a c ió n su a v iza d a a la rgo p lazo , lt_h aco _e v, de la fre cu e n c ia con la que o cu rre n ta le s e ve n to s . En e ste caso , la a c tu a liza c ió n no es s im é tr ica , es d ec ir, que se usan c o n s ta n te s de tie m p o d ife re n te s si la e stim a c ió n a u m e n ta o d ism in u ye , co m o se p ue de v e r a co n tin u a c ió n .
if (st->harm_cor_cnt == 0) /*whenprobably active*/
•;
:jt—>ic haco cv = 0,03f - 0.97f*st->lt haco ev; /*increase long term estimate*/
} e_s;e
st->lt_haco_ev = 0.99f * £ ‘~ ->lt_haco_ev; /*decrease long termestímate */ }
U n v a lo r ba jo de la ca ra c te rís tica lt_ tn _ tra ck , p re se n ta d o a n te r io rm e n te , ind ica q ue la e n e rg ía de tra m a de e n tra d a no ha e s ta d o ce rca de la e n e rg ía de fo n d o para a lg u n a s tra m a s . E sto se debe a que el lt_ tn _ tra c k se re du ce para cad a tra m a d o n d e la e n e rg ía de tra m a ac tu a l no e stá ce rca de la e s tim a c ió n de e n e rg ía de fo n d o . El lt_ tn _ tra ck a u m e n ta só lo cu a n d o la e n e rg ía de tra m a a c tu a l e stá ce rca de la e s tim a c ió n de e n e rg ía de fo n d o co m o se m o stró a n te r io rm e n te . P ara o b te n e r una m e jo r e s tim a c ió n de cuá n to tie m p o ha d u ra d o e ste "no se g u im ie n to ", es d ec ir, que la e n e rg ía de tra m a e stá le jos de la e s tim a c ió n de fo n d o , un con ta d o r, lo w _ tn _ tra ck_ cn t, para el n ú m e ro de tra m a s con e s ta a u se n c ia de se g u im ie n to , se fo rm a co m o :
En el e je m p lo an te rio r, "b a jo " se d e fine co m o p o r d eb a jo de l v a lo r 0 ,05. E s to d e b e ría ve rse co m o un v a lo r de e je m p lo , que p od ría se le cc io n a rse de m a ne ra d ife re n te .
P a ra el paso "F o rm a r p au sa y d e c is io n e s de m ú s ica " ilus tra do en la fig u ra 2 , las s ig u ie n te s tre s e xp re s io n e s de cód igo se usan para fo rm a r la d e te cc ió n de pausa , ta m b ié n d e n o ta d a d e te cc ió n de fondo . En o tras re a liza c io n e s e im p la n ta c io n e s , ta m b ié n p od rían a ñ a d irse o tros c rite r io s para la d e te cc ió n de pausa . La d ec is ió n rea l de m ú s ica se fo rm a en el có d ig o u tilizan do c a ra c te rís tica s de co rre la c ió n y e ne rg ía .
1.-bg_bgd = Etot < EtotJJp 0.6f * st->Etot_v_h;
El b g _ bg d se co n ve rtirá en "1 " o "v e rd a d e ro " cu a n d o la E to t e sté ce rca de la e s tim a c ió n del ru ido de fo n d o . El b g _ bg d s irve co m o una m á sca ra para o tros d e te c to re s de fo n d o . Es d ec ir, si el b g _ bg d no es "ve rd a d e ro ", no es n e ce sa rio e v a lu a r los d e te c to re s 2 y 3 de fo n d o a c o n tin u a c ió n . La E to t_ v_ h es una e s tim a c ió n de v a ria c ió n de ru ido , q ue a lte rn a tiva m e n te p od ría d e n o ta rse Nvar. La E to t_ v_ h se d e riva de la e n e rg ía to ta l de e n tra d a (en el d o m in io de log ) u sa n d o la E to t_v, que m id e la v a ria c ió n de e n e rg ía a b so lu ta e n tre tra m as . O b sé rve se que la ca ra c te rís tica E to t_ v_ h se lim ita a a u m e n ta r só lo un m á x im o de un v a lo r co n s ta n te ba jo , p o r e je m p lo , 0 ,2 p a ra cad a tra m a . La E to t_ l_ lp es una ve rs ió n su a v iza d a de la e n vo ltu ra de e n e rg ía m ín im a E tot_ l.
2.-aE_bgd = st->aEn == 0;
C u a n d o la aE n es cero , la a E _ b gd se co n v ie rte en "1 " o "ve rd a d e ra ". La aEn es un c o n ta d o r que a u m e n ta cu a n d o se d e te rm in a que una señ a l a c tiva e stá p re se n te en una tra m a a ctua l, y d ism in u ye cu a n d o se d e te rm in a que la tra m a a c tu a l no co m p re n d e una señ a l a ctiva . La aEn no p ue de a u m e n ta rse m ás que hasta un c ie rto n úm e ro , p o r e je m p lo , 6 , y no p ue de re d u c irse a m e no s de cero . D espu és de va ria s tra m a s co n se cu tiva s , p o r e je m p lo , 6 , s in una señ a l a ctiva , la aEn se rá igua l a cero.
3.-
En el p re se n te d o cu m e n to , la sd 1 _ b g d se rá "1 " o "ve rd a d e ra " cu a n d o tre s c o n d ic io n e s d ife re n te s son ve rd a d e ra s : la d in á m ica de la seña l, s ig n _ d y n _ lp es a lta , en e ste e je m p lo m ás de 15; la e n e rg ía de tra m a ac tu a l e stá ce rca de la e s tim a c ió n de fon do ; y: c ie rto n ú m e ro de tra m a s han p asad o s in co rre la c ió n o e ve n to s a rm ó n ico s , en e s te e je m p lo 20 tra m as .
La fu n c ió n de l b g _ b g d es s e r un in d ic a d o r para d e te c ta r que la e n e rg ía de tra m a ac tu a l e s tá ce rca de la e n e rg ía m ín im a a la rgo p lazo . Los dos ú ltim o s , el a E _ b g d y el sd 1 _ b g d re p re se n ta n p au sa o d e te cc ió n de fo n d o en d ife re n te s co n d ic io n e s . El a E _ b g d es el d e te c to r m ás g e n e ra l de los dos, m ie n tra s que el sd 1 _ b g d d e te c ta p rin c ip a lm e n te p a u sa s de vo z en una S N R a lta . U n a nue va lóg ica de d ec is ió n de a cu e rd o con una re a liza c ió n de la te cn o lo g ía d ivu lg a d a en el p rese n te d o cu m e n to , se co n s tru ye co m o s igu e en el có d ig o a c o n tin u a c ió n . La lóg ica de d e c is ió n co m p re n d e la co n d ic ió n de l b g _ bg d de e n m a sc a ra m ie n to y los dos d e te c to re s a E _ b g d y sd 1 _ b g d de pausa . T a m b ié n p od ría h a b e r un te rc e r d e te c to r de pausa , que e va lúa las e s ta d ís tica s a la rgo p lazo lo b ien que el T o ta lN o is e ra s tre a la e s tim a c ió n de e n e rg ía m ín im a. Las co n d ic io n e s e va lu a d a s si la p rim e ra línea es v e rd a d e ra es la lóg ica de d e c is ió n so b re lo g ra n d e que d e b e ría s e r e l ta m a ñ o del paso, u p d t_ s te p y la a c tu a liza c ió n de e s tim a c ió n de ru ido rea l es la a s ig n a c ió n de v a lo r a "s t-> b ck r [i]= -". O b sé rve se que el tm p N [i] es un n ive l de ru ido p o te n c ia lm e n te n uevo a n te r io rm e n te ca lcu la d o , ca lcu la d o de a cu e rd o con la so lu c ió n d e sc rita en el d o cu m e n to W O 2011 /049514. La lóg ica de d ec is ió n a co n tin u a c ió n s igu e la parte 209 de la fig u ra 2, que se ind ica en parte en con e x ió n con el s ig u ie n te C ód igo
if (bg_bgd&& (aE_bgd_Isdl_bgdIist->lt_tn_track >0.90f)) /*if 202:2and204:2)*/
{
else
{/* If in musiólowerbckrto dropfurther *//*if 203:2and205:1*/
If (st->low_tn_track_cnt>300&&st->lt_haco_ev>0.9f&&st->totalNoise>O.Of)
{For (i=0;i< NB_BANDS;i++)
{If (st->bckr[i]> 2 * E_MIN
{
St->bckr[i| =0.98f* st->bckr[i]?/*206*/
} } }
Else
{
(st->first_noise_updt)-=1;
} }
El se g m e n to de có d ig o en el ú ltim o b lo q ue de có d ig o que co m ie n za con " /* If in m u s ic ... * / co n tie n e el d escen so fo rza d o de la e s tim a c ió n de fo n d o q ue se usa si se so sp e ch a q ue la e n tra d a a c tu a l es m úsica . E s to se d ec ide com o una fun c ión : la rgo p e río do de ru ido de fo n d o de se g u im ie n to pob re en co m p a ra c ió n con la e s tim a c ió n de e n e rg ía m ín im a, A N D , o cu rre n c ia s fre cu e n te s de e ve n to s a rm ó n ico s o de co rre la c ió n , A N D , la ú ltim a con d ic ión "to ta lN o ise > 0 " es una co m p ro b a c ió n de q ue la e n e rg ía to ta l a c tu a l de la e s tim a c ió n de fon do es m a yo r que cero, lo q ue im p lica q ue se p uede c o n s id e ra r una re du cc ió n de la e s tim a c ió n de fondo . A d e m á s, se d e te rm in a si "b ck r[i]> 2 * E _M IN ", d o n d e E _M IN es un v a lo r p os itivo bajo . E s ta es una c o m p ro b a c ió n de cad a e n tra d a en un v e c to r que co m p re n d e las e s tim a c io n e s de fo n d o de sub b a n d a , de ta l m a ne ra q ue una e n tra d a tie n e q ue e xc e d e r la E _M IN con el fin de p o d e r re d u c irse (en el e je m p lo , al m u ltip lica rse p or 0 ,98). E s ta s co m p ro b a c io n e s se hacen con el fin de e v ita r re d u c ir las e s tim a c io n e s de fo n d o en va lo re s d e m a s ia d o bajos.
Las re a liza c io n e s m e jo ran la e s tim a c ió n de l ru ido de fondo , la cua l p e rm ite un re n d im ie n to m e jo ra d o de l S A D /V A D para lo g ra r una so lu c ió n de D T X de a lta e fic ie n c ia y e v ita r la d eg ra d a c ió n de la ca lid ad de l h ab la o de la m ú sica ca u sa d a p o r el recorte .
C on la e lim in a c ió n de la re tro a lim e n ta c ió n de d ec is ió n , d e sc rita en el d o cu m e n to W O 2011 /09514 , a p a rtir de la E to t_ v_ h , h ay una m e jo r se p a ra c ió n e n tre la e s tim a c ió n de ru ido y el S AD . E sto tie n e b e n e fic io s ya q ue la e s tim a c ió n de l ru ido no ca m b ia s i/cu a n d o se ca m b ia la fu n c ió n /e l a ju s te de l S AD . Es dec ir, la d e te rm in a c ió n de una e s tim a c ió n de ru ido de fo n d o se v u e lve in d e p e n d ie n te de la fu n c ió n del SAD . A d e m á s, el a ju s te de la lóg ica de e s tim a c ió n de ru ido se v u e lve m ás fá c il ya q ue no se ve a fe c ta d a p o r los e fe c to s se cu n d a rio s de l S A D cu a n d o se m o d ifica n las e s tim a c io n e s de fondo .
Claims (15)
1. Un m é to do para e s tim a r el ru ido de fo n d o en una señ a l de aud io , co m p re n d ie n d o , el m étodo :
a) o b te n e r (201) al m e no s un p a rá m e tro a so c ia d o con un se g m e n to de se ñ a l de a ud io de e n tra d a en b ase a:
- una p rim e ra g a n a n c ia de p red icc ió n linea l c a lcu la d a co m o co c ie n te e n tre una e n e rg ía de la señ a l de e n tra d a y una e n e rg ía de señ a l re s idu a l de una p rim e ra p red icc ió n linea l para el se g m e n to de señ a l de a u d io ; y
- una se g u n d a g a n a n c ia de p re d icc ió n linea l c a lcu la d a com o el co c ie n te e n tre la e n e rg ía de señ a l re s idu a l de la p rim e ra p red icc ió n linea l y una e n e rg ía de señ a l re s idu a l de una se g u n d a p red icc ió n linea l para el se g m e n to de señ a l de a u d io ;
b) d e te rm in a r (202) si el se g m e n to de señ a l de a ud io co m p re n d e una p ausa lib re de v o z y m úsica , en base al m enos en el al m e no s un p ará m e tro ; y:
si se d e te rm in a q ue el se g m e n to de señ a l de a ud io co m p re n d e una pausa:
- a c tu a liz a r (203 ) una e s tim a c ió n de ru ido de fo n d o en base al se g m e n to de señ a l de aud io.
2. El m é to do de a cu e rd o con la re iv in d ica c ió n 1, en el que la p rim e ra p red icc ió n linea l es una p red icc ió n linea l de se g u n d o o rden y la se g u n d a p red icc ió n linea l es una p red icc ió n linea l de 16° orden .
3. El m é to do de a cu e rd o con la re iv in d ica c ió n 1 o 2, en el que la o b te n c ió n de l al m e no s un p a rá m e tro com p re nd e : lim ita r las g a n a n c ia s de p red icc ió n linea l p rim e ra y s e g u n d a p ara to m a r va lo re s en un in te rva lo p red e fin ido .
4. El m é to do de a cu e rd o con cu a lq u ie ra de las re iv in d ica c io n e s 1 a 3, en el q ue la o b te n c ió n de l al m e no s un p a rá m e tro com p re nd e :
c re a r al m e no s una e s tim a c ió n a la rgo p lazo de cad a una de las g a n a n c ia s de p red icc ió n linea l p rim e ra y segunda , en el que la e s tim a c ió n a la rgo p lazo se basa a d ic io n a lm e n te en las g a n a n c ia s de p red icc ió n linea l c o rre sp o n d ie n te s a so c ia d a s con al m e no s un se g m e n to de se ñ a l de a ud io an te rio r.
5. El m é to do de a cu e rd o con una cu a lq u ie ra de las re iv in d ica c io n e s 1 a 4, en el que la o b te n c ió n del al m e no s un p a rá m e tro com p re nd e :
d e te rm in a r una d ife re n c ia e n tre una de las g a n a n c ia s de p red icc ió n linea l a so c ia d a s con el se g m e n to de señ a l de a ud io y una e s tim a c ió n a la rgo p lazo de d ich a g a n a n c ia de p red icc ió n lineal.
6. El m é to do de a cu e rd o con una cu a lq u ie ra de las re iv in d ica c io n e s 1 a 5, en el que la o b te n c ió n del al m e no s un p a rá m e tro com p re nd e :
d e te rm in a r una d ife re n c ia e n tre d os e s tim a c io n e s a la rgo p lazo a so c ia d a s con una de las g a n a n c ia s de p red icc ió n lineal.
7. El m é to do de a cu e rd o con una cu a lq u ie ra de las re iv in d ica c io n e s 1 a 6 , en el que la o b te n c ió n del al m e no s un p a rá m e tro co m p re n d e el f iltra d o de paso ba jo de las g a n a n c ia s de p red icc ió n linea l p rim e ra y segunda .
8. El m é to do de a cu e rd o con la re iv in d ica c ió n 7, en el que los co e fic ie n te s de filtro de al m e no s un filtro de paso bajo d e p e n d e n de una re lac ión e n tre una g a n a n c ia de p red icc ió n linea l a so c ia d a con el se g m e n to de se ñ a l de a ud io y un p ro m e d io de una g a n a n c ia de p red icc ió n linea l co rre sp o n d ie n te o b te n id a en base a una p lu ra lida d de se g m e n to s a n te r io re s de señ a l de aud io.
9. El m é to do de a cu e rd o con cu a lq u ie ra de las re iv in d ica c io n e s a n te rio res , en el q ue la d e te rm in a c ió n de si el se g m e n to de señ a l de a ud io co m p re n d e una pau sa se basa a d ic io n a lm e n te en una m e d id a de c e rca n ía e sp ec tra l a so c ia d a con el se g m e n to de señ a l de aud io.
10. El m é to do de a cu e rd o con la re iv in d ica c ió n 9, q ue co m p re n d e a d ic io n a lm e n te o b te n e r la m e d id a de ce rca n ía e sp e c tra l en base a e ne rg ía s para un co n ju n to de b an da s de fre cu e n c ia de l se g m e n to de señ a l de a ud io y e s tim a c io n e s de ru ido de fon do c o rre sp o n d ie n te s al co n ju n to de b a n da s de fre cu en c ia .
11. El m é to do de a cu e rd o con la re iv in d ica c ió n 10, en el que, d u ra n te un p e río do de in ic ia liza c ión , se usa un v a lo r in ic ia l E min com o las e s tim a c io n e s de ru ido de fo n d o en base a las cu a le s se o b tie n e la m e d id a de ce rca n ía e spec tra l.
12. Un a p a ra to (1100 ), para e s tim a r el ru ido de fo n d o en una señ a l de a ud io que co m p re n d e una p lu ra lid a d de se g m e n to s de señ a l de aud io , e s ta n d o el a p a ra to co n fig u ra d o para:
a) o b te n e r al m enos un p a rá m e tro en base a:
- una p rim e ra g a n a n c ia de p red icc ió n linea l c a lcu la d a com o el co c ie n te e n tre una e n e rg ía de l se g m e n to de señ a l de a ud io y una e n e rg ía de señ a l re s idu a l de una p rim e ra p red icc ió n linea l para el se g m e n to de se ñ a l de aud io; y - una se g u n d a g a n a n c ia de p red icc ió n linea l c a lcu la d a com o el co c ie n te e n tre la e n e rg ía de señ a l re s idu a l de la p rim e ra p red icc ió n linea l y una e n e rg ía de señ a l re s idu a l de una se g u n d a p red icc ió n linea l para el se g m e n to de señ a l de aud io;
b ) d e te rm in a r si el se g m e n to de señ a l de a ud io co m p re n d e una p ausa lib re de v o z y m ú s ica , en b a s e al m e no s en el al m e no s un p ará m e tro ; y
si se d e te rm in a q u e el se g m e n to de señ a l de a ud io co m p re n d e una p au sa :
c ) a c tu a liz a r una e s tim a c ió n de ru ido de fo n d o en b a se al se g m e n to de señ a l de a u d io .
13. El a p a ra to de a cu e rd o con la re iv in d ica c ió n 12, en el q ue el a p a ra to e stá co n fig u ra d o a d ic io n a lm e n te para re a liza r el m é to do de a cu e rd o con c u a lq u ie ra de las re iv in d ica c io n e s 2 a 11.
14. Un có d e c de a ud io q ue co m p re n d e el a p a ra to de a cu e rd o con la re iv in d ica c ió n 12 o 13.
15. Un d isp o s itivo de co m u n ica c ió n q ue co m p re n d e el a p a ra to de a cu e rd o con la re iv in d ica c ió n 12 o 13.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462030121P | 2014-07-29 | 2014-07-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2758517T3 true ES2758517T3 (es) | 2020-05-05 |
Family
ID=53682771
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES15739357.0T Active ES2664348T3 (es) | 2014-07-29 | 2015-07-01 | Estimación de ruido de fondo en señales de audio |
ES17202308T Active ES2758517T3 (es) | 2014-07-29 | 2015-07-01 | Estimación del ruido de fondo en las señales de audio |
ES19179575T Active ES2869141T3 (es) | 2014-07-29 | 2015-07-01 | Estimación de ruido de fondo en señales de audio |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES15739357.0T Active ES2664348T3 (es) | 2014-07-29 | 2015-07-01 | Estimación de ruido de fondo en señales de audio |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES19179575T Active ES2869141T3 (es) | 2014-07-29 | 2015-07-01 | Estimación de ruido de fondo en señales de audio |
Country Status (19)
Country | Link |
---|---|
US (5) | US9870780B2 (es) |
EP (3) | EP3582221B1 (es) |
JP (3) | JP6208377B2 (es) |
KR (3) | KR101895391B1 (es) |
CN (3) | CN112927725A (es) |
BR (1) | BR112017001643B1 (es) |
CA (1) | CA2956531C (es) |
DK (1) | DK3582221T3 (es) |
ES (3) | ES2664348T3 (es) |
HU (1) | HUE037050T2 (es) |
MX (3) | MX2021010373A (es) |
MY (1) | MY178131A (es) |
NZ (1) | NZ728080A (es) |
PH (1) | PH12017500031A1 (es) |
PL (2) | PL3582221T3 (es) |
PT (1) | PT3309784T (es) |
RU (3) | RU2713852C2 (es) |
WO (1) | WO2016018186A1 (es) |
ZA (2) | ZA201708141B (es) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2941782T3 (es) | 2013-12-19 | 2023-05-25 | Ericsson Telefon Ab L M | Estimación de ruido de fondo en señales de audio |
CN105261375B (zh) * | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
ES2664348T3 (es) * | 2014-07-29 | 2018-04-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimación de ruido de fondo en señales de audio |
KR102446392B1 (ko) * | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
CN105897455A (zh) * | 2015-11-16 | 2016-08-24 | 乐视云计算有限公司 | 用于检测功能管理配置服务器运营的方法、合法客户端、cdn节点及系统 |
DE102018206689A1 (de) * | 2018-04-30 | 2019-10-31 | Sivantos Pte. Ltd. | Verfahren zur Rauschunterdrückung in einem Audiosignal |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
CN110110437B (zh) * | 2019-05-07 | 2023-08-29 | 中汽研(天津)汽车工程研究院有限公司 | 一种基于相关区间不确定性理论的汽车高频噪声预测方法 |
CN111863016B (zh) * | 2020-06-15 | 2022-09-02 | 云南国土资源职业学院 | 一种天文时序信号的噪声估计方法 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297213A (en) * | 1992-04-06 | 1994-03-22 | Holden Thomas W | System and method for reducing noise |
IT1257065B (it) * | 1992-07-31 | 1996-01-05 | Sip | Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi. |
JP3685812B2 (ja) * | 1993-06-29 | 2005-08-24 | ソニー株式会社 | 音声信号送受信装置 |
FR2715784B1 (fr) * | 1994-02-02 | 1996-03-29 | Jacques Prado | Procédé et dispositif d'analyse d'un signal de retour et annuleur d'écho adaptatif en comportant application. |
FR2720850B1 (fr) * | 1994-06-03 | 1996-08-14 | Matra Communication | Procédé de codage de parole à prédiction linéaire. |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US6782361B1 (en) * | 1999-06-18 | 2004-08-24 | Mcgill University | Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
JP2001236085A (ja) * | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
DE10026904A1 (de) * | 2000-04-28 | 2002-01-03 | Deutsche Telekom Ag | Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal |
US7254532B2 (en) * | 2000-04-28 | 2007-08-07 | Deutsche Telekom Ag | Method for making a voice activity decision |
US7136810B2 (en) * | 2000-05-22 | 2006-11-14 | Texas Instruments Incorporated | Wideband speech coding system and method |
JP2002258897A (ja) * | 2001-02-27 | 2002-09-11 | Fujitsu Ltd | 雑音抑圧装置 |
KR100399057B1 (ko) * | 2001-08-07 | 2003-09-26 | 한국전자통신연구원 | 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 |
FR2833103B1 (fr) * | 2001-12-05 | 2004-07-09 | France Telecom | Systeme de detection de parole dans le bruit |
US7206740B2 (en) * | 2002-01-04 | 2007-04-17 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US7065486B1 (en) * | 2002-04-11 | 2006-06-20 | Mindspeed Technologies, Inc. | Linear prediction based noise suppression |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
US7454010B1 (en) | 2004-11-03 | 2008-11-18 | Acoustic Technologies, Inc. | Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation |
JP4551817B2 (ja) * | 2005-05-20 | 2010-09-29 | Okiセミコンダクタ株式会社 | ノイズレベル推定方法及びその装置 |
US20070078645A1 (en) * | 2005-09-30 | 2007-04-05 | Nokia Corporation | Filterbank-based processing of speech signals |
RU2317595C1 (ru) * | 2006-10-30 | 2008-02-20 | ГОУ ВПО "Белгородский государственный университет" | Способ обнаружения пауз в речевых сигналах и устройство его реализующее |
RU2417459C2 (ru) * | 2006-11-15 | 2011-04-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для декодирования аудиосигнала |
PL2118889T3 (pl) * | 2007-03-05 | 2013-03-29 | Ericsson Telefon Ab L M | Sposób i sterownik do wygładzania stacjonarnego szumu tła |
CA2690433C (en) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
US8489396B2 (en) * | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
KR101230183B1 (ko) * | 2008-07-14 | 2013-02-15 | 광운대학교 산학협력단 | 오디오 신호의 상태결정 장치 |
JP5513138B2 (ja) * | 2009-01-28 | 2014-06-04 | 矢崎総業株式会社 | 基板 |
US8244523B1 (en) * | 2009-04-08 | 2012-08-14 | Rockwell Collins, Inc. | Systems and methods for noise reduction |
US8886528B2 (en) * | 2009-06-04 | 2014-11-11 | Panasonic Corporation | Audio signal processing device and method |
DE102009034238A1 (de) | 2009-07-22 | 2011-02-17 | Daimler Ag | Statorsegment und Stator eines Hybrid- oder Elektrofahrzeuges |
DE102009034235A1 (de) | 2009-07-22 | 2011-02-17 | Daimler Ag | Stator eines Hybrid- oder Elektrofahrzeuges, Statorträger |
CN102667927B (zh) * | 2009-10-19 | 2013-05-08 | 瑞典爱立信有限公司 | 语音活动检测的方法和背景估计器 |
CA2778343A1 (en) * | 2009-10-19 | 2011-04-28 | Martin Sehlstedt | Method and voice activity detector for a speech encoder |
CN102136271B (zh) * | 2011-02-09 | 2012-07-04 | 华为技术有限公司 | 舒适噪声生成器、方法及回声抵消装置 |
JP5969513B2 (ja) * | 2011-02-14 | 2016-08-17 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 不活性相の間のノイズ合成を用いるオーディオコーデック |
AP2015008251A0 (en) * | 2012-09-11 | 2015-02-28 | Telefonaktiebogalet Lm Ericsson Publ | Generation of comfort noise |
CN103050121A (zh) * | 2012-12-31 | 2013-04-17 | 北京迅光达通信技术有限公司 | 线性预测语音编码方法及语音合成方法 |
CN106409313B (zh) * | 2013-08-06 | 2021-04-20 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN103440871B (zh) * | 2013-08-21 | 2016-04-13 | 大连理工大学 | 一种语音中瞬态噪声抑制的方法 |
ES2664348T3 (es) * | 2014-07-29 | 2018-04-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimación de ruido de fondo en señales de audio |
US11114104B2 (en) * | 2019-06-18 | 2021-09-07 | International Business Machines Corporation | Preventing adversarial audio attacks on digital assistants |
KR20230103130A (ko) * | 2021-12-31 | 2023-07-07 | 에스케이하이닉스 주식회사 | 메모리 컨트롤러 및 그 동작 방법 |
-
2015
- 2015-07-01 ES ES15739357.0T patent/ES2664348T3/es active Active
- 2015-07-01 EP EP19179575.6A patent/EP3582221B1/en active Active
- 2015-07-01 KR KR1020177002593A patent/KR101895391B1/ko not_active Application Discontinuation
- 2015-07-01 MX MX2021010373A patent/MX2021010373A/es unknown
- 2015-07-01 EP EP15739357.0A patent/EP3175458B1/en active Active
- 2015-07-01 KR KR1020187025077A patent/KR102012325B1/ko active IP Right Grant
- 2015-07-01 CA CA2956531A patent/CA2956531C/en active Active
- 2015-07-01 ES ES17202308T patent/ES2758517T3/es active Active
- 2015-07-01 WO PCT/SE2015/050770 patent/WO2016018186A1/en active Application Filing
- 2015-07-01 DK DK19179575.6T patent/DK3582221T3/da active
- 2015-07-01 CN CN202110082923.6A patent/CN112927725A/zh active Pending
- 2015-07-01 KR KR1020197023763A patent/KR102267986B1/ko active IP Right Grant
- 2015-07-01 RU RU2018129139A patent/RU2713852C2/ru active
- 2015-07-01 US US15/119,956 patent/US9870780B2/en active Active
- 2015-07-01 RU RU2017106163A patent/RU2665916C2/ru active
- 2015-07-01 MY MYPI2017700095A patent/MY178131A/en unknown
- 2015-07-01 PT PT172023087T patent/PT3309784T/pt unknown
- 2015-07-01 EP EP17202308.7A patent/EP3309784B1/en active Active
- 2015-07-01 JP JP2016552887A patent/JP6208377B2/ja active Active
- 2015-07-01 CN CN201580040591.8A patent/CN106575511B/zh active Active
- 2015-07-01 MX MX2017000805A patent/MX365694B/es active IP Right Grant
- 2015-07-01 PL PL19179575T patent/PL3582221T3/pl unknown
- 2015-07-01 BR BR112017001643-5A patent/BR112017001643B1/pt active IP Right Grant
- 2015-07-01 PL PL17202308T patent/PL3309784T3/pl unknown
- 2015-07-01 NZ NZ728080A patent/NZ728080A/en unknown
- 2015-07-01 HU HUE15739357A patent/HUE037050T2/hu unknown
- 2015-07-01 ES ES19179575T patent/ES2869141T3/es active Active
- 2015-07-01 CN CN202110082903.9A patent/CN112927724B/zh active Active
-
2017
- 2017-01-05 PH PH12017500031A patent/PH12017500031A1/en unknown
- 2017-01-18 MX MX2019005799A patent/MX2019005799A/es unknown
- 2017-09-06 JP JP2017171326A patent/JP6600337B2/ja active Active
- 2017-11-21 US US15/818,848 patent/US10347265B2/en active Active
- 2017-11-30 ZA ZA2017/08141A patent/ZA201708141B/en unknown
-
2019
- 2019-05-10 US US16/408,848 patent/US11114105B2/en active Active
- 2019-05-20 ZA ZA2019/03140A patent/ZA201903140B/en unknown
- 2019-10-04 JP JP2019184033A patent/JP6788086B2/ja active Active
-
2020
- 2020-01-14 RU RU2020100879A patent/RU2760346C2/ru active
-
2021
- 2021-08-03 US US17/392,908 patent/US11636865B2/en active Active
-
2023
- 2023-03-13 US US18/120,483 patent/US20230215447A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2758517T3 (es) | Estimación del ruido de fondo en las señales de audio | |
CN108469109A (zh) | 设备异常的检测方法、装置、系统、空调器及存储介质 | |
EP3942515A1 (en) | Large-scale node configuration management for maas platform | |
TW200947422A (en) | Systems, methods, and apparatus for context suppression using receivers | |
DE69927843T2 (de) | Verfahren und vorrichtung zur dekodierung von signalen mit variablen kodierungen aufgrund vorhergehender kommunikation | |
CN107426651A (zh) | 多通道的混音方法及装置 | |
US9025732B2 (en) | Social quality-of-service database | |
US20040243404A1 (en) | Method and apparatus for improving voice quality of encoded speech signals in a network | |
CN112836991B (zh) | 站点规划方法、装置、终端设备和可读存储介质 | |
CN101258539B (zh) | 中继装置以及信号处理方法 | |
KR100763325B1 (ko) | 분산 음성 인식을 위한 클래스 양자화 | |
DE112018005806T5 (de) | Notrufdienst-sicherung unter verwendung von einheitenkommunikation auf benutzerebene | |
US20120284021A1 (en) | Concealing audio interruptions | |
KR100641673B1 (ko) | 분산 음성 인식을 위한 피치 양자화 | |
CN111554308A (zh) | 一种语音处理方法、装置、设备及存储介质 | |
JP2013250582A (ja) | 複雑さ分散によるデジタル信号の転送誤り偽装 | |
CN116388161A (zh) | 一种配电网的韧性确定方法及装置 | |
CN109982392A (zh) | 基站小区的邻区配置方法、装置、设备及介质 | |
ES2967185T3 (es) | Servidor multimedia de escena de voz escalable | |
Blachman | Third-order intermodulation due to quantization | |
US7298827B1 (en) | System and method for testing a quality of telecommunication data | |
CN111415258A (zh) | 非正常挖矿账户的识别方法和惩罚方法、设备和存储介质 | |
CN108206817B (zh) | 一种会议选路方法及装置 | |
KR20200140060A (ko) | 전파의 장애점 분석을 위한 경로 프로파일 생성 방법 및 장치 | |
CN113259063B (zh) | 数据处理方法、装置、计算机设备和计算机可读存储介质 |