ES2928295T3 - Método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales - Google Patents
Método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales Download PDFInfo
- Publication number
- ES2928295T3 ES2928295T3 ES20382110T ES20382110T ES2928295T3 ES 2928295 T3 ES2928295 T3 ES 2928295T3 ES 20382110 T ES20382110 T ES 20382110T ES 20382110 T ES20382110 T ES 20382110T ES 2928295 T3 ES2928295 T3 ES 2928295T3
- Authority
- ES
- Spain
- Prior art keywords
- convolutional neural
- spectral
- telephone voice
- signals based
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 42
- 230000009467 reduction Effects 0.000 claims abstract description 17
- 230000001364 causal effect Effects 0.000 claims abstract description 5
- 230000003595 spectral effect Effects 0.000 claims description 39
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013459 approach Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000003203 everyday effect Effects 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000005534 acoustic noise Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
Se describe un método para mejorar las señales de voz telefónicas basado en la Red Neural Convolucional Profunda (CNN). El método es capaz de reducir el efecto de las distorsiones acústicas en escenarios cotidianos durante una llamada telefónica. Es un método de un solo canal, orientado al habla, con diseño causal y baja latencia. La novedad radica en el método de reducción de ruido que, basado en el método clásico de ganancia, utiliza una CNN para aprender el estimador de Wiener. Luego, calcula la ganancia del filtro para mejorar la potencia del habla sobre la potencia del ruido para cada componente de tiempo-frecuencia de la señal. La selección del estimador de ganancia de Wiener como elemento esencial del método, disminuye la vulnerabilidad a errores de estimación ya que las características de esta medida la hacen muy apropiada para ser estimada por enfoques de aprendizaje profundo. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales
El presente método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales profundas (CNN) es capaz de reducir el efecto de las distorsiones acústicas que se producen en escenarios cotidianos durante una llamada telefónica. Estas distorsiones pueden manifestarse en forma de ruido aditivo, reverberación u otras, y afectar a la inteligibilidad de la voz que se transmite por la línea telefónica, provocando incomodidad entre los interlocutores o incluso el abandono de la conversación. La presente invención es un método de mejora de voz para señales de voz telefónica monocanal con baja latencia. La novedad del método de la presente invención radica en el hecho de que es un método de reducción de ruido que, basándose en el método clásico de la ganancia, utiliza una red neuronal convolucional profunda (CNN) para aprender el estimador de Wiener. A continuación, con esto calcula la ganancia del filtro para mejorar la potencia de la voz frente a la potencia del ruido para cada componente tiempo-frecuencia de la señal. La selección del estimador de la ganancia de Wiener como elemento esencial del método disminuye la vulnerabilidad a errores de estimación, ya que las características de esta medida la hacen muy apropiada para ser estimada mediante enfoques de aprendizaje profundo. El método de la presente invención puede incorporar opcionalmente la capacidad de evaluar la calidad de la señal de voz y, en consecuencia, proceder a aplicar la mejora acústica.
En comparación con estudios previos, la presente invención logra mejorar significativamente la eficacia, permite el procesamiento de ruidos realistas (no estacionarios, mezclados, correlacionados con la voz, etc.) y también mejora en el hecho de que la estimación se realiza de manera no recursiva, lo cual evita que se propaguen errores. Permite dos modos de funcionamiento, uno basado en procesamiento causal, adecuado para aplicaciones que requieran análisis en tiempo real y entornos que requieren causalidad, así como uno hace uso de la señal completa de una manera no causal para aplicaciones con requisitos que lo permitan. Finalmente, se resalta que el método consta de una implementación que implica una baja latencia en el procesamiento.
Campo técnico
La invención pertenece al campo de la tecnología de telecomunicaciones y, más específicamente, a aquellas tecnologías que permiten reducir las distorsiones acústicas en la voz telefónica.
Antecedentes de la invención
Las conversaciones telefónicas que se efectúan en escenarios cotidianos, por ejemplo, en el hogar, una oficina, un parque público, una calle, etc., en su mayoría se ven afectadas por ruido ambiental, efectos reverberantes que se producen habitualmente cuando se utiliza un dispositivo de manos libres en un entorno interior, un micrófono distante, entre otros. Estas distorsiones acústicas se combinan con la voz y se transmiten como un todo a través de la línea telefónica. De esta manera, la inteligibilidad de la voz que llega al otro extremo se ve comprometida según el nivel de afectación de la señal de voz. Niveles moderados de distorsión pueden provocar la incomodidad de los interlocutores involucrados en la conversación. Sin embargo, a medida que aumenta el nivel de afectación de la señal, los interlocutores pueden incluso considerar terminar la llamada. El uso de un método de mejora de voz contribuye a que la repetición de estas situaciones indeseables no afecte a la calidad del servicio y mejor, por lo tanto, la reputación del proveedor de servicios telefónicos.
Dichos métodos son capaces de procesar señales de voz con distorsiones típicas de ambientes reales, ofreciendo una señal de mejor calidad acústica. El método de mejora de voz en el dominio espectral basado en ganancia es un paradigma establecido para reducir ruido en señales de voz monocanal (Philipos C. Loizou, Speech Enhancement: Theory and Practice, CRC Press, Nueva York, 2013). El método de la ganancia consiste en obtener una representación de tiempo-frecuencia de la señal de voz y estimar una ganancia dependiente de la frecuencia y que varía en el tiempo, según el nivel de afectación por ruido de cada zona espectral. Esta ganancia se utiliza para modificar los componentes de tiempo-frecuencia de la representación espectral de la señal según el predominio de voz o ruido, lo cual se determina a través de la probabilidad de presencia de voz. La aplicación del filtro de mejora en la representación de tiempo-frecuencia de la señal de voz da lugar a una versión modificada del espectro que se aproxima a la señal de voz limpia. A continuación, un algoritmo de reconstrucción aplica una transformación inversa, de acuerdo con a la utilizada inicialmente, para obtener las muestras de la señal mejorada en el dominio del tiempo. En el estado de la técnica existe una gran familia de algoritmos estadísticos derivados a partir de este paradigma. Entre ellos es imprescindible mencionar los clásicos de filtrado de Wiener (Norbert Wiener. "Extrapolation, Interpolation, and Smoothing of Stationary Time Series". Nueva York: Wiley. ISBN 978-0-262-73005-1, 1949) y Sustracción Espectral (S. Boll, "Suppression of acoustic noise in speech using spectral subtraction" IEEE Trans. on Acoustic, Speech and Signal Processing, vol. 27, n.° 2, pp. 113-120, 1979), más las numerosas variantes de los mismos; el Estimador de la Amplitud Espectral a Corto Plazo (STSA) (Y. Ephraim y D. Malah, "Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator" IEEE Trans. on Acoustic, Speech and Signal Processing, vol. 32, n.° 6, pp. 1109-1121, 1984) y la evolución del mismo, el Estimador de la Amplitud Espectral Logarítmica (en inglés: Logarithmic Spectral Amplitude, LSA) (Y. Ephraim y D. Malah, "Speech
enhancement using minimum-mean square log spectral amplitude estimator" IEEE Trans. on Acoustic, Speech and Signal Processing , vol. 33, n.° 2, pp. 443-445, 1985), que también han sido inspiración para numerosas propuestas, por ejemplo, el Estimador de la Amplitud Espectral Logarítmica Óptimamente Modificado (OMLSA) (I. Cohen y B. Berdugo, "Speech enhancement for non-stationary noise environments", Signal Processing, vol. 81, n.° 11, pp. 2403 2418, 2001), entre otros. Sin embargo, la base estadística de este marco tiene limitaciones en la eficacia de las estimaciones internas del método, especialmente cuando se enfrenta a ambientes de ruido reales que pueden tener mezclas de tipos de ruido, ruidos impulsivos, ruido correlacionado con la voz, etc.
El resurgimiento del aprendizaje automático profundo ha influido en las técnicas clásicas de reducción de ruido. En general, la mejora de voz monocanal basada en redes neuronales profundas se divide en dos tendencias fundamentales: las técnicas basadas en aprendizaje de máscaras o aproximación de máscaras y las técnicas basadas en correlación de características o aproximación de señales. Sin embargo, el método de la ganancia se mantiene como el paradigma subyacente en ambos casos.
Estudios previos en el contexto relacionados con la propuesta, es decir, los métodos de mejora de voz monocanal utilizando redes neuronales profundas (DNN) y los métodos basados en máscaras, difieren ambos por el contexto de aplicación del método que proponen, así como por la esencia de la novedad que plantean.
El estado de la técnica fundamental a la presente invención está compuesto por:
- B.Y. Xia y C.-C. Bao, "Speech enhancement with weighted denoising auto-encoder", en Proc. Interspeech, 2013; que propuso estimar el espectro de la señal de voz limpia utilizando una DNN de tipo Autoencoder y, a continuación, continuar con el proceso recursivo de estimaciones para obtener el filtro de mejora de voz. Esta fue una aproximación preliminar del método de ganancia al aprendizaje profundo. Sin embargo, el contexto del método de reducción de ruido en general difería notablemente de esta propuesta. En Xia et al. la DNN solo se utilizó para estimar la señal de voz limpia, que es un paso intermedio en la obtención de la ganancia de Wiener, mientras que en la presente invención, la DNN estima directamente la ganancia de Wiener. A continuación, en Xia et al., se mantuvieron intactos los siguientes elementos que componen el marco del método de ganancia clásico, lo cual les permitía obtener mejoras muy modestas en los resultados.
Además, varios estudios se han basado en el desarrollo de una solución desde el punto de vista del Análisis de Escena Auditiva Computacional (CASA). Estos se han centrado en la estimación de la Máscara Binaria Ideal (IBM) o de la Máscara de Relación Ideal (IRM). La definición de estas máscaras se asemeja al estimador de la ganancia de Wiener, pero no es exactamente igual. Matemáticamente la IRM se define de forma más genérica que la ganancia de Wiener, permitiendo variaciones en la implementación de la misma.
- A. Narayanan y D. L. Wang, "Ideal ratio mask estimation using deep neural networks for robust speech recognition" en IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), 2013, pp.
7092-7096: la DNN estima una variante que implementa la SNR instantánea comenzando a partir de la IRM, alejándose de la estimación de la ganancia de Wiener. A continuación, la representación de tiempo-frecuencia de la señal modificada se entrega a un sistema de reconocimiento de voz, y la mejora de la señal nunca se reconstruye.
- E. W. Healy, S. E. Yoho, J. Chen, Y. Wang, y D. Wang, "An algorithm to increase speech intelligibility for hearingimpaired listeners in novel segments of the same noise type", The Journal of the Acoustical Society of America, vol. 138, n.° 3, pp. 1660-1669, 2015: este método estima la raíz cuadrada de la IRM, mientras que en Tobias Goehring, F. Bolner, J.J. Monaghan, B. van Dijk, A. Zarowski y S. Bleeck, "Speech enhancement based on neural networks improves speech intelligibility in noise for cochlear implant users", The Journal of Hearing research, vol.
344, pp. 183-194, 2017", se estima directamente la IRM. A diferencia de la invención, estos métodos funcionan en el entorno de las ayudas de audición, por lo que la señal resultante tras el tratamiento pasa directamente al dispositivo de asistencia auditiva y, por lo tanto, nunca se reconstruye.
Breve descripción de la invención
En un primer aspecto de la invención, se divulga un método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales. El método de la presente invención se aplica a una señal de voz telefónica que se compone de magnitud y fase espectral. El método comprende las siguientes etapas:
• una etapa de preprocesamiento que comprende extraer la magnitud y la fase de la representación espectral de la señal de voz telefónica;
• una etapa de reducción de ruido que comprende aplicar a la magnitud de la representación espectral de la señal de voz telefónica las siguientes etapas:
o aplicar un estimador espectral;
o calcular una representación perceptual;
o aplicar una Red Neuronal Convolucional que, con unas entradas correspondientes al estimador espectral y
a la representación perceptual, genera como salida, una estimación de ganancia de Wiener consistente en una matriz/vector dependiente de la frecuencia y que varía en el tiempo;
o utilizar la estimación de ganancia de Wiener dentro de la ganancia del filtro de mejora de la siguiente función (función f1):
donde t es el segmento de tiempo, f el intervalo de frecuencia, Gwlener — DNN(xt,xt_1,...) con xt el vector de parámetros espectrales y perceptuales, Gmfn es una constante, p (t,f) es la probabilidad de presencia de voz y v ( t , f) = s~ ^W ien e r ,
y en paralelo, utilizar la estimación de ganancia de Wiener como estimación de la probabilidad de presencia de voz;
o aplicar la función definida en el artículo anterior (función f1) como un filtro de mejora de voz.
• una etapa de posprocesamiento que comprende fusionar la fase inicial con la magnitud mejorada en la etapa de reducción de ruido.
La Red Neuronal Convolucional se entrena con una función de coste que es el MMSE entre el estimador óptimo de Wiener y la salida de la Red Neuronal Convolucional definida por medio de:
donde Gwiener( t , f ) —— — se obtiene de una manera supervisada, siendo Sx(tf) y SN(tf) respectivamente las s x ( t , f ) s N ( t ,r ) (,J) (,J) estimaciones de las densidades espectrales de potencia de la señal de voz limpia y del ruido.
La Red Neuronal Convolucional puede comprender una capa convolucional que es causal (es decir, la capa convolucional sólo utiliza muestras de señal anteriores a la que está siendo procesada y no posteriores) y tiene baja latencia.
Adicionalmente, el estimador espectral se obtiene utilizando el método de Welch.
Con respecto a la representación perceptual se consideran dos métodos: un banco de filtros de escala de Mel y una representación basada en coeficientes cepstrales en las frecuencias de Mel (MFCC).
Con respecto a la etapa de preprocesamiento para extraer la magnitud y la fase de la señal de voz telefónica, el método de la presente invención puede comprender adicionalmente dividir la señal de voz en segmentos solapados de decenas de milisegundos a los que se aplica una ventana tipo Hamming, una ventana de Hanning u otra ventana equivalente, y posteriormente una transformada de Fourier.
Con respecto a la etapa de preprocesamiento para extraer la magnitud y la fase de la señal de voz telefónica, dicha etapa puede comprender adicionalmente evaluar de forma objetiva la calidad de la señal de voz utilizando una medida de calidad acústica seleccionada de entre SNR (Relación Señal a Ruido), distorsión, POLQA (Análisis de Calidad de la Audición Objetiva de Percepción) u otra equivalente y, dependiendo de este resultado, proceder o no a la mejora acústica.
Con respecto a la etapa de posprocesamiento para fusionar la fase obtenida en la etapa de preprocesamiento con la magnitud obtenida en la etapa de reducción de ruido, dicha etapa comprende adicionalmente aplicar una transformada inversa de Fourier, y posteriormente, un algoritmo de reconstrucción temporal de la señal de voz. En otro aspecto de la presente invención, se divulga un sistema de mejora de las señales de voz telefónica basado en redes neuronales convolucionales y configurado para realizar el método de la presente invención definido en el primer aspecto de la invención. La presente invención comprende un primer bloque de extracción de señal, un segundo bloque de evaluación de la calidad de la señal, un tercer bloque de mejora de voz y un cuarto bloque de inserción de voz. Por lo tanto, el primer bloque, cuando se inicia una llamada telefónica, procede a extraer la señal de voz de la línea telefónica y la envía a un servidor paralelo de procesamiento. A continuación, el segundo bloque evalúa la calidad acústica del segmento de voz utilizando una medida de calidad acústica predefinida, por ejemplo: SNR, distorsión, POLQA u otra equivalente, y compara con un umbral preestablecido según estudios previos relacionados con la medida de calidad utilizada. De esta manera, el método decide si hay necesidad de someter el segmento a mejora acústica. Si la decisión es positiva, el tercer bloque, implementa el método de mejora de voz de la presente invención en el segmento de voz analizado. Si la decisión fue negativa, se pasa directamente al cuarto bloque de inserción de voz que es responsable de insertar el segmento de la señal de voz en la línea telefónica, salvaguardando la aparición de cortes u otros efectos indeseables que puedan afectar la percepción acústica del interlocutor. A continuación, se repite el proceso descrito y se analiza el siguiente segmento de voz.
Breve descripción de las figuras
Para ayudar a una mejor comprensión de las características de la invención y para complementar esta descripción, las siguientes figuras se adjunta como parte integrante de la misma, por medio de ilustración y no de limitación: La Figura 1 muestra un diagrama de bloques del sistema donde se inserta el método de mejora de la señal de voz telefónica.
La Figura 2 muestra un diagrama de bloques de la invención que incluye una etapa A de preprocesamiento o parametrización, una etapa B de reducción de ruido donde reside la novedad y etapa C de posprocesamiento o reconstrucción de la señal de voz.
Descripción detallada de una realización ilustrativa
Acrónimos:
FB: Banco de Filtros
MFCC: Coeficientes Cepstrales en las Frecuencias de Mel
DNN: Red Neuronal Profunda
CNN: Red Neuronal Convolucional
MMSE: Error Cuadrático Medio Mínimo
SNR: Relación Señal a Ruido
POLQA: Análisis de Calidad de la Audición Objetiva de Percepción
El método de la presente invención es un método de mejora de voz, el que opcionalmente puede incluir un módulo que analiza la calidad acústica de la señal de voz y decide si necesita someterse al proceso de mejora acústica. Esta decisión se toma por medio de umbrales preestablecidos de la medida de calidad. El operador puede decidir flexibilizar al máximo el umbral, tal que siempre se realice el proceso de mejora, o por el contrario restringirlo al máximo de tal que no se mejora la señal que pasa por la línea telefónica. Estos dos casos de uso pueden responder a aplicaciones específicas o situaciones circunstanciales decididas por el operador. En caso de someter la señal a mejora, a continuación se reinyecta en la línea telefónica, mostrando una mejor calidad acústica y de esta manera continua la trayectoria de la misma hasta el otro extremo.
El método de la presente invención se puede desplegar en un sistema como el mostrado en la Figura 1. El sistema mostrado en la Figura 1 comprende un bloque 1 de extracción de señal, un bloque 2 de evaluación de la señal, un bloque 3 de mejora de voz y un bloque 4 de inserción de voz. Por lo tanto, el sistema de mejora de las señales de voz telefónica basado en redes neuronales convolucionales de la presente invención como se representa en la Figura 1, cuando se inicia una llamada telefónica, procede a extraer la señal 1 de voz de la línea telefónica y la envía a un servidor paralelo de procesamiento. A continuación, el bloque 2 evalúa la calidad acústica del segmento de voz utilizando una medida de calidad acústica predefinida, por ejemplo: SNR, distorsión, POLQA u otra equivalente, y compara con un umbral preestablecido según estudios previos relacionados con dicha medida de calidad. De esta manera, el método decide si hay necesidad de someter el segmento a mejora acústica. Si la decisión es positiva, el siguiente bloque 3, implementa el método de mejora de voz de la presente invención en el segmento de voz analizado. Si la decisión fue negativa, pasa directamente al bloque de inserción 4 que se encarga de devolver el segmento de voz al flujo telefónico, salvaguardando la aparición de cortes u otros efectos indeseables que puedan afectar la percepción acústica del interlocutor. A continuación, se repite el proceso descrito y se analiza el siguiente segmento de voz.
La presente invención consiste en un método de mejora de voz o reducción de ruido 3 para señales telefónicas monocanal basado en CNN, en la categoría de los métodos basados en máscaras. En general, la presente invención consiste en estimar una máscara (o filtro) que modifica el espectro de la señal de voz observada para generar una versión mejorada de la misma. Esta aprovecha el esquema del método de la ganancia, pero sustituye los bloques de estimación intermedios de SNR a priori, SNR a posteriori, estimación del espectro de ruido y estimación del espectro de la voz limpia, motivado por la tendencia del mismo a introducir errores. En su lugar, el método de la presente invención emplea una estimación basada en CNN capaz de realizar el análisis de cada segmento de tiempo-frecuencia de la señal de una manera no recursiva, evitando de esta forma la propagación de errores típicos de este tipo de estimación. Específicamente, la CNN es responsable de obtener una estimación de la ganancia de Wiener, que se utiliza para generar la máscara o filtro de mejora. Para esto, la CNN implementa un modelo de regresión que aprende el estimador de MMSE de la señal de voz limpia, también conocido como estimador de la ganancia de Wiener. Este término es menos sensible a errores de estimación que los pasos intermedios de estimación antes mencionados, debido al rango dinámico del mismo y a las operaciones del método de aprendizaje de la CNN. De esta manera, el método de mejora de voz asegura que no disminuye la calidad acústica incluso en señales de voz que no están notablemente afectadas por ruido.
La novedad de la presente invención radica en el diseño del método de reducción de ruido basado en CNN, tanto por la esencia del método en sí, como por el contexto de aplicación del mismo. La principal novedad del método consiste en la selección del estimador de ganancia de Wiener como un elemento esencial del método de la presente invención, cuyas características lo hacen apropiado para ser estimado mediante aprendizaje automático, lo cual disminuye la sensibilidad a errores de estimación.
La Figura 2 muestra un diagrama de flujo del método implementado, formado por tres etapas de procesamiento. La etapa A realiza un preprocesamiento de la señal de voz ruidosa 10 que es responsable de representarla en el dominio de tiempo-frecuencia. Esta comienza con la segmentación de la señal de voz 10 en segmentos cortos solapados de decenas de milisegundos que conservan las propiedades cuasi estacionarias de la voz, a la que se aplica una ventana de tipo Hamming, ventana de Hanning u otra ventana adecuada para evitar distorsiones 11. A continuación, se realiza una transformación al dominio de espectro-temporal 12, que puede implementarse comenzando a partir de una transformada de Fourier u otra transformación equivalente. A continuación, el espectro resultante se divide en magnitud 13 y fase espectral 14. La magnitud 13 se utiliza como entrada de la etapa B de reducción de ruido, mientras que la fase espectral 14 se guarda para la reconstrucción que se implementa en la etapa C.
En la etapa B de reducción de ruido se concentra la novedad de la propuesta. Esta se encarga de generar un filtro de mejora con el que compensar los efectos del ruido acústico en la magnitud espectral 13 del segmento bajo análisis. La ganancia de dicho filtro 22 depende de la función de ganancia del estimador MMSE de la señal de voz limpia 20 y de la probabilidad de presencia de voz 21. Para obtener estos elementos se utiliza una CNN que estima la ganancia de Wiener 19 comenzando a partir de aprender la estructura de la voz ruidosa, viendo múltiples ejemplos de espectros de señales de voz y los correspondientes espectros de ruido asociados de forma separada.
La arquitectura de DNN en este caso consiste en una Red Neuronal Convolucional (CNN) 18 con múltiples entradas que se apilan juntas en un vector que incluye una o varias representaciones espectrales, por ejemplo estimaciones espectrales obtenidas por medio del método de Welch 15 u otra representación equivalente, así como una o varias representaciones perceptuales de la señal de voz observada, por ejemplo el banco de filtros de escala Mel (FB) 16, los coeficientes cepstrales en las frecuencias de Mel (MFCC) 17 u otras representaciones equivalentes. En la presente invención el procesamiento de la capa convolucional está configurado de forma causal, es decir que solo hace uso de la información del pasado, lo cual permite que actúen en tiempo real. La salida de la CNN es una estimación de la ganancia de Wiener 19, que consiste en una matriz/vector dependiente de la frecuencia y que varía en el tiempo. Esta matriz/vector se utiliza como la ganancia del estimador MMSE de la señal de voz limpia 20 y como estimación de la probabilidad de presencia de voz 21. Posteriormente, ambas se utilizan para obtener la función del filtro de mejora de voz 22 según la siguiente definición (I. Cohen y B. Berdugo, "Speech enhancement for non-stationary noise environments", Signal Processing , vol. 81, n.° 11, pp. 2403-2418, 2001):
donde t es el segmento de tiempo, f el intervalo de frecuencia, Gwlener = DNN(xt,xt_1,...) con xt el vector de parámetros espectrales y perceptuales en el instante de tiempo t, Gmfnes una constante, p ( t , f ) es la probabilidad de presencia de voz y v ( t , f) = &wj ener .
1 ^Wiener
La función del filtro de mejora de voz se define con la misma resolución de tiempo-frecuencia mencionada basada en la ganancia de Wiener y aplicando un tratamiento diferenciado a los segmentos de voz y no-voz. Este criterio se basa en considerar que la afectación del ruido acústico se manifiesta de forma diferente en las zonas de voz y no voz. Finalmente, este filtro es responsable de mejorar el espectro de la señal de voz, por tanto se aplica a la magnitud espectral 13 que resultó de la etapa A. Obsérvese que la reducción de ruido se implementa de manera no recursiva, la razón por la cual los errores potenciales que se originan para un cierto segmento de señal no afectarán etapas posteriores de procesamiento.
La red neuronal convolucional de la presente invención necesita ser entrenada. En el presente caso, en la etapa de entrenamiento la función de coste es el error cuadrático medio entre el estimador óptimo de Wiener y la salida de la red:
Para hacer esto de manera supervisada, se calcula Gwiener( t , f ) = — — que utiliza las estimaciones de las SX ( t , f ) S N (t ,f )
densidades de potencia espectrales de la señal de voz limpia SX(tj ) y del ruido SN(tj ) que dieron lugar a la señal de voz telefónica observada. Este espectro se estima según el método de Welch, que realiza un promedio en los M segmentos de tiempo solapados para obtener una estimación con menor varianza. La red neuronal se entrena con una gran cantidad de señales de voz limpia (cientos de horas de voz) y las correspondientes señales de ruido de las
mismas. Las señales de ruido utilizadas en el entrenamiento cubren una amplia gama de condiciones ruidosas que potencialmente podrían aparecer en los escenarios reales de aplicación, por ejemplo, varios tipos y niveles de ruido o reverberación. Además de las señales de ruido reales, se hacen modificaciones artificiales en la mezcla de voz y ruido de tal forma que se cubre la mayor cantidad de ejemplos vistos por la red en la etapa de aprendizaje de la misma, por ejemplo, cambios de escala, compresión, entre otros.
Finalmente, la etapa C de posprocesamiento finaliza el proceso de reducción de ruido obteniendo una señal de voz mejorada 26. Para esto utiliza la fase espectral 14 que resultó del preprocesamiento de la etapa A y la magnitud espectral mejorada 23 resultante del procesamiento de la etapa B. Ambos se insertan en un bloque de transformación espectral inversa 24, empleando el algoritmo de transformación espectral correspondiente al utilizado en la etapa A. A continuación, se utiliza un algoritmo de reconstrucción temporal 25, que tiene en cuenta el solapamiento y enventanado que se utilizó en la segmentación temporal 11 de la etapa A. Finalmente se obtiene la forma de onda mejorada de la señal de voz 26.
Claims (9)
1. Un método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, comprendiendo el método:
• una etapa de preprocesamiento (A) que comprende extraer la magnitud y la fase de una representación espectral de la señal de voz telefónica;
• una etapa de reducción de ruido (B) que comprende aplicar a la magnitud de la representación espectral de la señal de voz telefónica los siguientes pasos:
o aplicar un estimador espectral (15);
o calcular una representación perceptual (16, 17);
o aplicar una Red Neuronal Convolucional (18) que, con unas entradas correspondientes al estimador espectral (15) y a la representación perceptual (16, 17), genera como salida, una estimación de ganancia de Wiener (19) consistente en una matriz/vector dependiente de la frecuencia y que varía en el tiempo; o utilizar la estimación de ganancia de Wiener dentro del filtro de mejora de la función f1:
donde t es el segmento de tiempo, f el intervalo de frecuencia, Gwlener — DNN(xt,xt_1,...) con xt el vector de parámetros espectrales y perceptuales, Gmfn es una constante, p ( t , f ) es la probabilidad de presencia de voz y v ( t , f) — Swj ener ;
1 ^Wiener
y también utilizar la estimación de ganancia de Wiener como una probabilidad de presencia de voz (21); o aplicar la función f1 anterior como un filtro de mejora de voz;
• una etapa de posprocesamiento (C) que comprende fusionar la fase inicial con la magnitud mejorada en la etapa de reducción de ruido (B).
2. El método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, según la reivindicación 1, caracterizado por que la Red Neuronal Convolucional (18) se entrena con una función de coste que es el error cuadrático medio entre el estimador óptimo de Wiener y la salida de la Red Neuronal Convolucional (18) definida mediante:
3. El método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, según la reivindicación 1, caracterizado por que la etapa de preprocesamiento (A) para extraer la magnitud y la fase de la representación espectral de la señal de voz telefónica comprende adicionalmente dividir la señal de voz en segmentos solapados de decenas de milisegundos a los que se aplica una ventana de Hamming o Hanning, y posteriormente una transformada de Fourier.
4. El método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, según la reivindicación 1, caracterizado por que el estimador espectral se calcula mediante el método de Welch.
5. El método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, según la reivindicación 1, caracterizado por que la representación perceptual se calcula aplicando un banco de filtros de escala de Mel (16).
6. El método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, según la reivindicación 1, caracterizado por que la representación perceptual se realiza con coeficientes cepstrales en las frecuencias de Mel (MFCC) (17).
7. El método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, según las reivindicaciones 1 y 6, caracterizado por que la etapa de posprocesamiento (C) para fusionar la fase obtenida en la etapa de preprocesamiento (A) con la magnitud espectral obtenida en la etapa de reducción de ruido (B) comprende adicionalmente aplicar una transformada inversa de Fourier, y posteriormente, una algoritmo de reconstrucción temporal.
8. El método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, según la reivindicación 2, donde la Red Neuronal Convolucional (18) comprende al menos una capa convolucional que es causal y tiene baja latencia.
9. El método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales, según la reivindicación 1, donde la etapa de preprocesamiento (A) comprende adicionalmente evaluar de forma objetiva la calidad de la señal de voz (2) utilizando una medida de calidad acústica seleccionada de entre SNR, distorsión y POLQA.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20382110.3A EP3866165B1 (en) | 2020-02-14 | 2020-02-14 | Method for enhancing telephone speech signals based on convolutional neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2928295T3 true ES2928295T3 (es) | 2022-11-16 |
Family
ID=69810751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES20382110T Active ES2928295T3 (es) | 2020-02-14 | 2020-02-14 | Método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales |
Country Status (4)
Country | Link |
---|---|
US (1) | US11804234B2 (es) |
EP (1) | EP3866165B1 (es) |
JP (1) | JP7094340B2 (es) |
ES (1) | ES2928295T3 (es) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445919B (zh) * | 2020-03-13 | 2023-01-20 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的语音增强方法、系统、电子设备和介质 |
US11636872B2 (en) * | 2020-05-07 | 2023-04-25 | Netflix, Inc. | Techniques for computing perceived audio quality based on a trained multitask learning model |
US12062369B2 (en) * | 2020-09-25 | 2024-08-13 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
US11978466B2 (en) * | 2021-06-02 | 2024-05-07 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for restoring degraded speech via a modified diffusion model |
CN113782011B (zh) * | 2021-08-26 | 2024-04-09 | 清华大学苏州汽车研究院(相城) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
CN115002743A (zh) * | 2022-06-28 | 2022-09-02 | 广西东信易通科技有限公司 | 一种基于机器学习算法的中间号场景通话增强系统 |
CN115410592B (zh) * | 2022-08-19 | 2024-08-27 | 思必驰科技股份有限公司 | 多通道语音增强方法、系统、电子设备和存储介质 |
CN115497496B (zh) * | 2022-09-22 | 2023-11-14 | 东南大学 | 一种基于FirePS卷积神经网络的语音增强方法 |
CN115376501B (zh) * | 2022-10-26 | 2023-02-14 | 深圳市北科瑞讯信息技术有限公司 | 语音增强方法及装置、存储介质、电子设备 |
CN115810364B (zh) * | 2023-02-07 | 2023-04-28 | 海纳科德(湖北)科技有限公司 | 混音环境中的端到端目标声信号提取方法及系统 |
CN115856987B (zh) * | 2023-02-28 | 2023-05-02 | 西南科技大学 | 一种复杂环境下的核脉冲信号与噪声信号甄别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6175602B1 (en) | 1998-05-27 | 2001-01-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Signal noise reduction by spectral subtraction using linear convolution and casual filtering |
JP6563874B2 (ja) | 2016-08-16 | 2019-08-21 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム |
CN106531190B (zh) | 2016-10-12 | 2020-05-05 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
US10812915B2 (en) * | 2017-10-27 | 2020-10-20 | Starkey Laboratories, Inc. | Electronic device using a compound metric for sound enhancement |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
US10741192B2 (en) * | 2018-05-07 | 2020-08-11 | Qualcomm Incorporated | Split-domain speech signal enhancement |
CN110544488B (zh) | 2018-08-09 | 2022-01-28 | 腾讯科技(深圳)有限公司 | 一种多人语音的分离方法和装置 |
US11456007B2 (en) * | 2019-01-11 | 2022-09-27 | Samsung Electronics Co., Ltd | End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization |
-
2020
- 2020-02-14 EP EP20382110.3A patent/EP3866165B1/en active Active
- 2020-02-14 ES ES20382110T patent/ES2928295T3/es active Active
- 2020-10-16 JP JP2020174530A patent/JP7094340B2/ja active Active
- 2020-12-17 US US17/124,794 patent/US11804234B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP7094340B2 (ja) | 2022-07-01 |
EP3866165A1 (en) | 2021-08-18 |
US20210256988A1 (en) | 2021-08-19 |
US11804234B2 (en) | 2023-10-31 |
JP2021128328A (ja) | 2021-09-02 |
EP3866165B1 (en) | 2022-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2928295T3 (es) | Método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales | |
Chen et al. | New insights into the noise reduction Wiener filter | |
Huang et al. | A multi-frame approach to the frequency-domain single-channel noise reduction problem | |
CN111512367B (zh) | 提供处理的降噪且混响降低的音频信号的信号处理器和方法 | |
Chen et al. | Fundamentals of noise reduction | |
Verteletskaya et al. | Noise reduction based on modified spectral subtraction method | |
Tu et al. | A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition | |
Yen et al. | Adaptive co-channel speech separation and recognition | |
Islam et al. | Speech enhancement based on student $ t $ modeling of Teager energy operated perceptual wavelet packet coefficients and a custom thresholding function | |
Chang et al. | Speech enhancement: new approaches to soft decision | |
Yao et al. | A priori SNR estimation and noise estimation for speech enhancement | |
Kim et al. | Improved speech enhancement considering speech PSD uncertainty | |
Roy et al. | Deep learning with augmented Kalman filter for single-channel speech enhancement | |
Saleem et al. | Deep neural network based supervised speech enhancement in speech-babble noise | |
Saleem | Single channel noise reduction system in low SNR | |
Gao et al. | A unified speaker-dependent speech separation and enhancement system based on deep neural networks | |
Ravi et al. | A survey on speech enhancement methodologies | |
Gerkmann | Cepstral weighting for speech dereverberation without musical noise | |
Feng et al. | DNN-based linear prediction residual enhancement for speech dereverberation | |
Mutawa | Single Channel Speech Enhancement using a Complex Spectrum Method | |
Bao et al. | Signal power estimation based on convex optimization for speech enhancement | |
Patil et al. | Performance analysis of SS based speech enhancement algorithms for ASR with Non-stationary Noisy Database-NOIZEUS | |
Son et al. | Improved speech absence probability estimation based on environmental noise classification | |
Butarbutar et al. | Adaptive Wiener Filtering Method for Noise Reduction in Speech Recognition System | |
Liu et al. | MTF-based kalman filtering with linear prediction for power envelope restoration in noisy reverberant environments |