ES2533358T3 - Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido - Google Patents

Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido Download PDF

Info

Publication number
ES2533358T3
ES2533358T3 ES08783143.4T ES08783143T ES2533358T3 ES 2533358 T3 ES2533358 T3 ES 2533358T3 ES 08783143 T ES08783143 T ES 08783143T ES 2533358 T3 ES2533358 T3 ES 2533358T3
Authority
ES
Spain
Prior art keywords
sound signal
sound
signal
energy
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08783143.4T
Other languages
English (en)
Inventor
Vladimir Malenowsky
Milan Jelinek
Tommy Vaillancourt
Redwan Salami
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge Corp
Original Assignee
VoiceAge Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40185136&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2533358(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by VoiceAge Corp filed Critical VoiceAge Corp
Application granted granted Critical
Publication of ES2533358T3 publication Critical patent/ES2533358T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

Un procedimiento para estimar una tonalidad de una señal de sonido, en el que el procedimiento comprende: calcular un espectro residual actual de la señal de sonido; detectar los picos en el espectro residual actual; calcular un mapa de correlación entre el espectro residual actual y un espectro residual previo para cada pico detectado; y calcular un mapa de correlación a largo plazo basado en el mapa de correlación calculado, en el que el mapa de correlación a largo plazo es indicativo de una tonalidad en la señal de sonido.

Description

5
10
15
20
25
30
35
40
45
50
55
60
E08783143
20-03-2015
DESCRIPCIÓN
Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido
Campo de la Invención La presente invención se refiere a la detección de actividad sonora, la estimación de ruido de fondo y la clasificación de la señal de sonido, donde se entiende que sonido es una señal útil. La presente invención se refiere también al detector de actividad sonora, al estimador de ruido de fondo y al clasificador de señales de sonido correspondientes.
En particular, pero no de manera exclusiva:
La detección de actividad sonora se usa para seleccionar las tramas a ser codificadas usando técnicas optimizadas para tramas inactivas. El clasificador de señales de sonido se usa para discriminar entre diferentes clases de señales de voz y música para permitir una codificación más eficiente de las señales de sonido, es decir, codificación optimizada de señales de voz sorda, codificación optimizada de señales de voz sonora estables, y codificación genérica de otras señales de sonido. Se proporciona un algoritmo y usa diversos parámetros y características pertinentes para permitir una mejor elección del modo de codificación y una estimación más robusta del ruido de fondo. La estimación de tonalidad se usa para mejorar el rendimiento de la detección de actividad sonora en presencia de señales musicales, y para discriminar mejor entre sonidos sordos y música. Por ejemplo, la estimación de la tonalidad puede ser usada en un códec de banda súper ancha para decidir el modelo de códec para codificar la señal por encima de 7 kHz.
Antecedentes de la Invención La demanda de técnicas digitales de codificación de voz, eficientes, de banda estrecha y de banda ancha con un buen equilibrio entre la calidad subjetiva y la tasa de bits está aumentando en diversas áreas de aplicación, tales como teleconferencia, multimedia y comunicaciones inalámbricas. Hasta hace poco, el ancho de banda telefónico limitado a un intervalo de 200-3.400 Hz ha sido usado principalmente en aplicaciones de codificación de voz (señal muestreada a 8 kHz). Sin embargo, las aplicaciones de voz de banda ancha proporcionan una mayor inteligibilidad y naturalidad en la comunicación en comparación con el ancho de banda telefónico convencional. En los servicios de banda ancha, la señal de entrada es muestreada a 16 kHz y el ancho de banda codificado está en el intervalo de 50 a 7.000 Hz. Se ha encontrado que este ancho de banda es suficiente para suministrar una buena calidad dando una impresión de casi una comunicación cara a cara. Se consigue una mejora adicional de la calidad con la denominada banda súper ancha, en la que la señal es muestreada a 32 kHz y el ancho de banda codificado está comprendido en el intervalo de 50 a 15.000 Hz. Para las señales de voz, esto proporciona una calidad cara a cara, ya que casi toda la energía en la voz humana es inferior a 14.000 Hz. Este ancho de banda proporciona también una mejora de calidad considerable con respecto a las señales de audio generales incluyendo música (la banda ancha es equivalente a la radio AM y la banda súper ancha es equivalente a la radio FM). Se ha usado un ancho de banda más alto para señales de audio generales con la banda completa 20- 20.000 Hz (calidad de CD muestreada a 44,1 kHz o 48 kHz).
Un codificador de sonido convierte una señal de sonido (voz o audio) en un flujo de bits digital que es transmitido a través de un canal de comunicación o es almacenado en un medio de almacenamiento. La señal de sonido es digitalizada, es decir, es muestreo y cuantificada generalmente con 16 bits por muestra. El codificador de sonido desempeña el papel de representar estas muestras digitales con un número de bits más pequeño mientras mantiene una buena calidad subjetiva. El decodificador de sonido opera sobre el flujo el flujo de bits transmitido o almacenado y lo convierte de nuevo a una señal de sonido.
La codificación basada en predicción lineal con excitación por código (Code-Excited Linear Prediction, CELP) es una de las mejores técnicas de la técnica anterior para conseguir un buen compromiso entre la calidad subjetiva y la tasa de bits. Esta técnica de codificación es una base de varios estándares de codificación de voz, en aplicaciones tanto inalámbricas como de línea fija. En la codificación CELP, la señal de voz muestreada es procesada en bloques sucesivos de L muestras, denominadas generalmente tramas, donde L es un número predeterminado que corresponde típicamente a 10-30 ms. Se calcula y se transmite un filtro de predicción lineal (LP) cada trama. La trama de la muestra L es dividida en bloques más pequeños denominados subtramas. En cada subtrama, normalmente se obtiene una señal de excitación a partir de dos componentes, la excitación pasada y la excitación de libro de códigos fijo, innovadora. El componente formado a partir de la excitación pasada se denomina frecuentemente libro de códigos adaptativo o excitación de tono. Los parámetros que caracterizan la señal de excitación se codifican y transmiten al decodificador, donde la señal de excitación reconstruida es usada
5
10
15
20
25
30
35
40
45
50
55
60
E08783143
20-03-2015
como la entrada al filtro LP.
El uso de codificación de voz de tasa de bits variable (Variable Bit Rate, VBR) con fuente controlada mejora considerablemente la capacidad del sistema. En la codificación VBR con fuente controlada, el códec usa un módulo de clasificación de señal y se usa un modelo de codificación optimizado para codificar cada trama de voz en base a la naturaleza de la trama de voz (por ejemplo, sonora, sorda, transitoria, ruido de fondo). Además, pueden usarse diferentes tasas de bits para cada clase. La forma más simple de codificación VBR con fuente controlada es usar detección de actividad de voz (Voice Activity Detection, VAD) y codificar las tramas de voz inactivas (ruido de fondo) a una tasa de bits muy baja. Puede usarse además transmisión discontinua (Discontinuous transmission, DTX) donde no se transmiten datos en el caso de ruido de fondo estable. El decodificador usa generación de ruido de confort (Comfort Noise Generation, CNG) para generar las características de ruido de fondo. VAD/DTX/CNG resulta en una considerable reducción en la tasa de bits media y en aplicaciones de conmutación de paquetes reduce considerablemente el número de paquetes enrutados. Los algoritmos VAD funcionan bien con las señales de voz, pero pueden resultar en graves problemas en caso de señales musicales. Los segmentos de señales musicales pueden ser clasificados como señales sordas y, por consiguiente, pueden ser codificadas con un modelo optimizado para señales sordas que afecta gravemente a la calidad de la música. Además, algunos segmentos de señales musicales estables pueden ser clasificados como ruido de fondo estable y esto puede provocar la actualización de ruido de fondo en el algoritmo VAD, lo que resulta en la degradación del rendimiento del algoritmo. Por lo tanto, sería ventajoso extender el algoritmo VAD para discriminar mejor las señales musicales. En la presente descripción, este algoritmo se denominará algoritmo de Detección de actividad sonora (Sound Activity Detection, SAD) en el que el sonido podría ser habla o música o cualquier señal útil. La presente descripción describe también un procedimiento de detección de tonalidad usado para mejorar el rendimiento del algoritmo de SAD en el caso de señales musicales.
Otro aspecto en la codificación del habla y de audio es el concepto de codificación incorporada, conocida también como codificación por capas. En la codificación incorporada, la señal es codificada en una primera capa para producir un primer flujo de bits y, a continuación, el error entre la señal original y la señal codificada de la primera capa es codificado adicionalmente para producir un segundo flujo de bits. Esto puede repetirse para más capas codificando el error entre la señal original y la señal codificada de todas las capas anteriores. Los flujos de bits de todas las capas son concatenados para la transmisión. La ventaja de la codificación por capas es que pueden desecharse partes del flujo de bits (correspondientes a las capas superiores) en la red (por ejemplo, en caso de congestión) todavía pudiendo decodificarse la señal en el receptor dependiendo del número de capas recibidas. La codificación por capas es útil también en aplicaciones de multidifusión en las que el codificador produce el flujo de bits de todas las capas y la red decide enviar a diferentes tasas de bits a diferentes puntos finales en función de la tasa de bits disponible en cada enlace.
La codificación incorporada o por capas puede ser útil también para mejorar la calidad de los códecs existentes usados ampliamente, mientras todavía se mantiene la interoperabilidad con estos códecs. La adición de más capas a la capa de núcleo del códec estándar puede mejorar la calidad e incluso aumentar el ancho de banda de la señal de audio codificada. Los ejemplos son la Recomendación UIT-T G.729.1 recientemente estandarizada, en la que la capa de núcleo es interoperable con el estándar G.729 de banda estrecha usado ampliamente a 8 kbit/s y capas superiores producen tasas de bits de hasta 32 kbit/s (con una señal de banda ancha a partir de 16 kbit/s). El objetivo del trabajo de normalización actual es añadir más capas para producir un códec de banda súper ancha (ancho de banda de 14 kHz) y extensiones estéreo. Otro ejemplo es la Recomendación UIT-T G.718 para la codificación de señales de banda súper ancha a 8, 12, 16, 24 y 32 kbit/s. El códec está siendo ampliando también para codificar señales de banda súper ancha y estéreo con tasas de bits más altas.
Los requisitos para los códecs integrados normalmente exigen una buena calidad tanto en señales de audio como en señales de voz. Debido a que el habla puede ser codificada en tasas de bits relativamente bajas usando un enfoque basado en un modelo, la primera capa (o las primeras dos capas) es codificada (o son codificadas) usando una técnica específica para el habla y la señal de error para las capas superiores es codificada usando una técnica de codificación de audio más genérica. Esto proporciona una buena calidad de habla a tasas de bits bajas y una buena calidad de audio conforme se aumenta la tasa de bits. En G.718 y G.729.1, las primeras dos capas se basan en la técnica ACELP (Algebraic Code-Excited Linear Prediction) que es adecuada para la codificación de señales de voz. En las capas superiores, se usa una codificación basada en transformación adecuada para las señales de audio para codificar la señal de error (la diferencia entre la señal original y la salida de las dos primeras capas). Se usa la conocida transformada MDCT (transformada modificada discreta de coseno, Modified Discrete Cosine Transform), en la que la señal de error es transformada en el dominio de la frecuencia. En las capas de banda súper ancha, la señal superior a los 7 kHz es codificada usando un modelo de codificación genérico o un modelo de codificación tonal. La detección de tonalidad indicada anteriormente puede ser usada también para seleccionar el modelo de codificación apropiado a ser usado.
E08783143
20-03-2015
Un ejemplo de un procedimiento un aparato conocidos para determinar la tonalidad de una señal de audio de entrada se describe en el documento de patente US 2004/181393 A1.
5 Compendio de la Invención Según un primer aspecto de la presente invención, se proporciona un procedimiento para estimar una tonalidad de una señal de sonido. El procedimiento comprende: calcular un espectro residual actual de la señal de sonido; detectar picos en el espectro residual actual; calcular un mapa de correlación entre el espectro residual actual y un espectro residual anterior para cada pico detectado; y calcular un mapa de correlación a largo plazo basado en el
10 mapa de correlación calculado, en el que el mapa de correlación a largo plazo es indicativo de una tonalidad en la señal de sonido.
Según un segundo aspecto de la presente invención, se proporciona un dispositivo para estimar una tonalidad de una señal de sonido. El dispositivo comprende: un calculador de un espectro residual actual de la señal de sonido;
15 un detector para detectar picos en el espectro residual actual; un calculador para calcular un mapa de correlación entre el espectro residual actual y un espectro residual anterior para cada pico detectado; y un calculador para calcular un mapa de correlación a largo plazo basado en el mapa de correlación calculado, en el que el mapa de correlación a largo plazo es indicativo de una tonalidad en la señal de sonido.
20 Lo indicado anteriormente y otros objetos, ventajas y características de la presente invención serán más evidentes tras la lectura de la descripción no restrictiva siguiente de una realización ilustrativa de la misma, proporcionada solamente a modo de ejemplo con referencia a los dibujos adjuntos.
Breve descripción de los dibujos 25 En los dibujos adjuntos:
La Figura 1 es un diagrama de bloques esquemático de una parte de un ejemplo de sistema de comunicación de sonido que incluye detección de actividad sonora, actualización de estimación de ruido de fondo y clasificación de señal de sonido;
30 La Figura 2 es una ilustración no limitativa de uso de ventanas en el análisis espectral; La Figura 3 es una ilustración gráfica no restrictiva del principio de cálculo de suelo espectral y el espectro residual; La Figura 4 es una ilustración no limitativa de cálculo de mapa de correlación espectral en una trama actual; La Figura 5 es un ejemplo de diagrama de bloques funcional de un algoritmo de clasificación de señal; y
35 La Figura 6 es un ejemplo de árbol de decisión para discriminación de voz sorda.
Descripción detallada En la realización ilustrativa, no limitativa, de la presente invención, se realiza una detección de actividad sonora (SAD) dentro de un sistema de comunicación de sonido para clasificar tramas de tiempo corto de las señales como
40 sonido o ruido de fondo/silencio. La detección de actividad sonora se basa en una relación de señal-ruido (SNR) dependiente de la frecuencia y usa una energía de ruido de fondo estimada por cada banda crítica. Una decisión sobre la actualización del estimador de ruido de fondo se basa en diversos parámetros, incluyendo parámetros que discriminan entre el ruido de fondo/silencio y música, impidiendo, de esta manera, la actualización del estimador de ruido de fondo en las señales musicales.
45 SAD corresponde a una primera etapa de la clasificación de señal. Esta primera etapa se usa para discriminar tramas inactivas para una codificación optimizada de señal inactiva. En una segunda etapa, las tramas de voz sorda son discriminadas para una codificación optimizada de una señal sorda. En esta segunda etapa, se añade la detección de música con el fin de prevenir que la música sea clasificada como señal sorda. Finalmente, en una
50 tercera etapa, las señales sonoras son discriminadas mediante un examen adicional de los parámetros de trama.
Las técnicas descritas en la presente memoria pueden implementarse con señales de sonido de banda estrecha (Narrow Band, NB) muestreadas a 8.000 muestras/s o señales de sonido de banda ancha (Wide Banda, WB) muestreadas a 16.000 muestras/s, o a cualquier otra frecuencia de muestreo. El codificador usado en la 55 realización ilustrativa no limitativa de la presente invención se basa en los códecs AMR-WB [AMR Wideband Speech Codec: Transcoding Functions, 3GPP Technical Specification TS 26.190 (http://www.3gpp.org)] y VMR-WB [Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems, 3GPP2 Technical Specification C.S0052-A v1.0, Abril de 2005 (http://www.3gpp2.org)] que usan una conversión de muestreo interna para convertir la frecuencia de muestreo de señal a 12.800 60 muestras/s (funcionando en un ancho de banda de 6,4 kHz). De esta manera, la técnica de detección de actividad sonora en la realización ilustrativa no restrictiva opera sobre señales de banda estrecha o de banda ancha después
E08783143
20-03-2015
de una conversión de muestreo a 12,8 kHz.
La Figura 1 es un diagrama de bloques de un sistema 100 de comunicación de sonido según la realización ilustrativa no limitativa de la invención, que incluye detección de actividad sonora.
5 El sistema 100 de comunicación de sonido de la Figura 1 comprende un pre-procesador 101. El preprocesamiento realizado por el módulo 101 puede ser realizado tal como se describe en el ejemplo siguiente (filtrado pasa alta, remuestreo y pre-énfasis).
10 Antes de la conversión de frecuencia, la señal de sonido de entrada es filtrada con un filtro pasa alta. En esta realización ilustrativa, no restrictiva, la frecuencia de corte del filtro pasa alta es de 25 Hz para WM y de 100 Hz para NB. El filtro pasa alta sirve como precaución contra componentes de baja frecuencia no deseados. Por ejemplo, puede usarse la función de transferencia siguiente:
15
imagen1
20 en la que, para WB, b0 = 0,9930820, b1 = -1,98616407, b2 = 0,9930820, a1 = -1,9861162, a2 = 0,9862119292 y, para NB, b0 = 0,945976856, b1 = -1.891953712, b2 = 0,945976856, a1 = -1.889033079, a2 = 0,894874345. Obviamente, el filtrado de paso alto puede llevarse a cabo, de manera alternativa, después de re-muestrear a 12,8 kHz.
25 En el caso de WB, la señal de sonido de entrada es diezmada desde 16 kHz a 12,8 kHz. El diezmado es realizado por un sobremuestreador que sobremuestrea la señal de sonido con un factor de 4. A continuación, la salida resultante es filtrada a través de un filtro pasa baja FIR (respuesta a impulso finito, Finite Impulse Response) con una frecuencia de corte de 6,4 kHz. A continuación, la señal filtrada con el filtro pasa baja es submuestreada con
30 un factor de 5 por un submuestreador apropiado. El retardo del filtrado es de 15 muestras a una frecuencia de muestreo de 16 kHz.
En el caso de NB, la señal de sonido es sobremuestreada de 8 kHz a 12,8 kHz. Para ese propósito, una sobremuestreador realiza un sobremuestreo con un factor de 8 sobre el sonido. A continuación, la salida resultante
35 es filtrada a través de un filtro FIR pasa baja con una frecuencia de corte a 6,4 kHz. A continuación, un submuestreador submuestrea la señal filtrada de paso bajo en un factor de 5. El retardo del filtrado es de 16 muestras a una frecuencia de muestreo de 8 kHz.
Después de la conversión de muestreo, se aplica un pre-énfasis a la señal de sonido antes del procedimiento de
40 codificación. En el pre-énfasis, se usa un filtro pasa alta de primer orden para enfatizar las frecuencias más altas. Este filtro pasa alta de primer orden forma un pre-enfatizador y usa, por ejemplo, la función de transferencia siguiente:
45
imagen2
El pre-énfasis se usa para mejorar el rendimiento del códec a altas frecuencias y para mejorar la ponderación perceptual en el procedimiento de minimización de errores usado en el codificador.
50 Tal como se ha descrito anteriormente, la señal de sonido de entrada es convertida a una frecuencia de muestreo de 12,8 kHz y es preprocesada, por ejemplo, tal como se ha descrito anteriormente. Sin embargo, las técnicas descritas pueden ser aplicadas igualmente a señales a otras frecuencias de muestreo, tales como 8 kHz o 16 kHz, con un preprocesamiento diferente o sin preprocesamiento.
55 En la realización ilustrativa no limitativa de la presente invención, el codificador 109 (Figura 1) que usa detección de actividad sonora opera sobre tramas de 20 ms que contienen 256 muestras a la frecuencia de muestreo de 12,8 kHz. Además, el codificador 109 utiliza una anticipación de 10 ms de la trama futura para realizar su análisis (Figura 2). La detección de actividad sonora sigue la misma estructura de trama.
60 Con referencia a la Figura 1, el análisis espectral es realizado en el analizador 102 espectral. Se realizan dos
E08783143
20-03-2015
análisis en cada trama usando ventanas de 20 ms con una superposición del 50%. El principio de las ventanas se ilustra en la Figura 2. Se calcula la energía de la señal para los contenedores de frecuencia y las bandas críticas [J.
D. Johnston, " Transform coding of audio signal using perceptual noise criteria," IEEE J. Select. Areas Commun., vol. 6, pp. 314-323, Febrero1988].
5 La detección de actividad sonora (primera etapa de la clasificación de señal) es realizada en el detector 103 de actividad sonora usando estimaciones de energía de ruido calculadas en la trama previa. La salida del detector 103 de actividad sonora es una variable binaria que es usada además por el codificador 109 y que determina si la trama actual está codificada como activa o inactiva.
10 El estimador 104 de ruido actualiza una estimación de ruido hacia abajo (primer nivel de estimación y actualización de ruido), es decir, si en una banda crítica la energía de la trama es más baja que una energía estimada del ruido de fondo, la energía de la estimación de ruido es actualizada en esa banda crítica.
15 La reducción de ruido es aplicada opcionalmente por un reductor 105 de ruido opcional a la señal de voz usando, por ejemplo, un procedimiento de sustracción espectral. Un ejemplo de dicho un esquema de reducción de ruido se describe en [M. Jelinek y R. Salami, " Noise Reduction Method for Wideband Speech Coding", en Proc. EUSIPCO, Viena, Austria, septiembre de 2004].
20 Un analizador de LP y un rastreador 106 de tono realizan un análisis de predicción lineal (LP) y un análisis de tono en bucle abierto (normalmente como parte del algoritmo de codificación de voz). En esta realización ilustrativa no restrictiva, los parámetros resultantes del analizador LP y el rastreador 106 de tono se usan en la decisión para actualizar las estimaciones de ruido en las bandas críticas tal como se realizan en el módulo 107. De manera alternativa, el detector 103 de actividad sonora puede ser usado también para tomar la decisión de actualización
25 de ruido. Según una alternativa adicional, las funciones implementadas por el analizador LP y el rastreador 106 de tono pueden ser una parte integral del algoritmo de codificación de sonido.
Antes de actualizar las estimaciones de energía de ruido en el módulo 107, se realiza una detección de música para prevenir una falsa actualización sobre las señales musicales activas. La detección de música usa los 30 parámetros espectrales calculados por el analizador 102 espectral.
Finalmente, las estimaciones de energía de ruido son actualizadas en el módulo 107 (segundo nivel de estimación y actualización de ruido). Este módulo 107 utiliza todos los parámetros disponibles calculados previamente en los módulos 102 a 106 para decidir acerca de la actualización de las energías de la estimación de ruido.
35 En el clasificador 108 de señal, la señal de sonido es clasificada adicionalmente como sorda, sonora estable o genérica. Se calculan varios parámetros para apoyar esta decisión. En este clasificador de señales, el modo de codificación de la señal de sonido de la trama actual se elige de manera que represente de la mejor manera posible la clase de señal que está siendo codificada.
40 El codificador 109 de sonido realiza la codificación de la señal de sonido en base al modo de codificación seleccionado en el clasificador 108 de señal de sonido. En otras aplicaciones, el clasificador 108 de señal de sonido puede ser un sistema de reconocimiento de voz automático.
45 Análisis espectral El análisis espectral es realizado por el analizador 102 espectral de la Figura 1.
Se usa la transformada de Fourier para realizar el análisis espectral y la estimación de la energía espectral. El análisis espectral se realiza dos veces por cada trama usando una Transformada Rápida de Fourier (FFT) de 256 50 puntos con un solapamiento del 50 por ciento (como se ilustra en la Figura 2). Las ventanas de análisis se colocan de manera que se aproveche toda la anticipación. El comienzo de la primera ventana está en el comienzo de la trama actual del codificador. La segunda ventana se coloca 128 muestras más allá. Se ha usado una ventana de Harming de raíz cuadrada (que es equivalente a una ventana sinusoidal) para ponderar la señal de sonido de entrada para el análisis espectral. Esta ventana es particularmente adecuada para procedimientos de
55 solapamiento-suma (de esta manera, este análisis espectral particular se usa en la supresión de ruido basada en la sustracción espectral y análisis/síntesis de solapamiento-suma). La ventana de Harming de raíz cuadrada viene dada por:
E08783143
20-03-2015
imagen3
en la que LFFT = 256 es el tamaño del análisis FTT. Aquí, sólo se calcula y se almacena la mitad de la ventana ya que esta ventana es simétrica (de 0 a LFFT/2).
10 Las señales de ventana para ambos análisis espectrales (análisis espectrales primero y segundo) se obtienen usando las dos relaciones siguientes:
imagen4
20 En las que s'(0) es la primera muestra en la trama actual. En la realización ilustrativa no limitativa de la presente invención, el comienzo de la primera ventana es colocado al comienzo de la trama actual. La segunda ventana es colocada 128 muestras más allá.
25 La FFT se realiza en ambas señales de ventana para obtener los dos conjuntos de parámetros espectrales siguientes por cada trama:
30
35
imagen5
40 en las que N = LFFT.
La FFT proporciona las partes real e imaginaria del espectro denotado por XR(k), k = 0 a 128, y Xf{k), k = 1 a 127. XR(0) corresponde al espectro a 0 Hz (DC) y XR(128) corresponde al espectro a 6.400 Hz. El espectro en estos puntos solo tiene valores reales.
45 Después del análisis FFT, el espectro resultante es dividido en bandas críticas usando los intervalos que tienen los siguientes límites superiores [M. Jelinek y R. Salami, " Noise Reduction Method for Wideband Speech Coding", en Proc. Eusipco, Viena, Austria, Septiembre de 2004] (20 bandas en el intervalo de frecuencias 0-6.400 Hz):
50 Bandas críticas = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1.080,0, 1.270,0, 1.480,0, 1.720,0, 2.000,0, 2.320,0, 2.700,0, 3.150,0, 3.700,0, 4.400,0, 5.300,0, 6.350,0} Hz.
La FFT de 256 puntos resulta en una resolución de frecuencia de 50 Hz (6.400/128). De esta manera, después de ignorar la componente DC del espectro, el número de contenedores de frecuencia por cada banda crítica es MCB = 55 {2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21}, respectivamente.
La energía media en una banda crítica es calculada usando la relación siguiente:
60
E08783143
20-03-2015
imagen6
en la que KR(k) y Xf(k) son, respectivamente, las partes real e imaginaria del k-ésimo contenedor de frecuencias y ji es el índice del primer contenedor en la i-ésima banda crítica proporcionada por ji = {1, 3, 5, 7, 9, 1 1, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}.
El analizador 102 espectral calcula también la energía normalizada por cada contenedor de frecuencia, ECONT(k), en el intervalo de 0 a 6.400 Hz, usando la relación siguiente:
imagen7
imagen8
Además, los espectros de energía por cada contenedor de frecuencia en ambos análisis se combinan entre sí para obtener el espectro logarítmico de energía media (en decibelios), es decir,
25 en la que los superíndices (1) y (2) se usan para denotar los análisis espectrales primero y segundo, respectivamente.
Finalmente, el analizador 102 espectral calcula la energía total media para ambos análisis espectral primero y 30 segundo en una trama de 20 ms sumando las energías medias de las bandas críticas ECB. Es decir, la energía espectral para un determinado análisis espectral se calcula utilizando la relación siguiente:
imagen9
imagen10
y la energía de trama total se calcula como la media de las energías espectrales de ambos análisis espectrales primero y segundo en un trama. Es decir
Los parámetros de salida del analizador 102 espectral, es decir, la energía media por cada banda crítica, la 45 energía por cada contenedor de frecuencias y la energía total, se usan en el detector 103 de actividad sonora, y en la selección de la tasa. El espectro logarítmico de energía media se usa en la detección de música.
En las señales de entrada de banda estrecha muestreadas a 8.000 muestras/s, después de una conversión de muestreo a 12.800 muestra/s, no hay contenido en ambos extremos del espectro, de manera que la primera banda
50 crítica de frecuencia inferior así como las tres últimas bandas de alta frecuencia no se consideran en el cálculo de los parámetros relevantes (sólo se consideran las bandas de i = 1 a 16). Sin embargo, las ecuaciones (3) y (4) no se ven afectadas.
Detección de actividad sonora (SAD)
55 La detección de actividad sonora es realizada por el detector 103 de actividad sonora en base a la SNR de la Figura 1.
El analizador 102 realiza el análisis espectral descrito anteriormente dos veces por cada trama. Considérese que
E(1)
CB(i) y E(2)CB(i), tal como se calculan en la ecuación (2), denotan la energía media por cada información de 60 banda crítica en los análisis espectrales primero y segundo, respectivamente. La energía media por cada banda crítica para toda la trama y parte de la trama anterior se calcula usando la relación siguiente:
E08783143
20-03-2015
imagen11
5 en la que E(0)CB(i) denota la energía por cada información de banda crítica a partir del segundo análisis espectral de la trama anterior. A continuación, la relación señal-ruido (SNR) por cada banda crítica es calculada usando la relación siguiente:
en la que NCB(i) es la energía de ruido estimada por cada banda crítica, tal como se explicará más adelante. A 15 continuación, la SNR media por cada trama se calcula como
imagen12
imagen13
20
en la que bmin = 0 y bmax = 19 en el caso de señales de banda ancha, y bmin = 1 y bmax = 16 en el caso de señales de banda estrecha.
25 La actividad sonora es detectada comparando la SNR media por cada trama con un umbral determinado que es una función de la SNR a largo plazo. La SNR a largo plazo viene dada por la relación siguiente:
imagen14
en la que Ef y Nf se calculan usando las ecuaciones (13) y (14), respectivamente, que se describirán más
adelante. El valor inicial de Ef es 45 dB.
35 El umbral es una función lineal a intervalos de la SNR a largo plazo. Se usan dos funciones, una optimizada para voz limpia y una optimizada para voz ruidosa.
Para señales de banda ancha, si SNRLT < 35 (voz ruidosa), entonces el umbral es igual a: 40
imagen15
45 si no (voz limpia):
imagen16
Para las señales de banda estrecha, si SNRLT < 20 (voz ruidosa), entonces el umbral es igual a:
imagen17
si no (voz limpia):
imagen18
E08783143
20-03-2015
Además, se añade una histéresis en la decisión SAD para evitar una conmutación frecuente al final de un período de sonido activo. La estrategia de histéresis es diferente para las señales de banda ancha y de banda estrecha y entra en vigor sólo si la señal es ruidosa.
Para señales de banda ancha, la estrategia de histéresis se aplica en el caso en el que la trama está en un "período de mantenimiento " cuya longitud varía según la SNR a largo plazo de la manera siguiente:
10
15
imagen19
20
El periodo de mantenimiento comienza en la primera trama de sonido inactiva después de tres (3) tramas de sonido activas consecutivas. Su función consiste en forzar cada trama inactiva durante el periodo de mantenimiento como una trama activa. La decisión SAD se explicará más adelante.
25 Para las señales de banda estrecha, la estrategia de histéresis consiste en disminuir el umbral de decisión SAD de la manera siguiente:
30
35
imagen20
40 De esta manera, para señales ruidosas con baja SNR, el umbral se hace más pequeño para dar preferencia a la decisión de señal activa. No hay mantenimiento para las señales de banda estrecha.
Finalmente, el detector 103 de actividad sonora tiene dos salidas - un indicador SAD y un indicador SAD local.
45 Ambos indicadores se establecen a uno si se detecta una señal activa y se establecen a cero en caso contrario. Además, el indicador SAD se establece a uno en el período de mantenimiento. La decisión SAD se realiza comparando la SNR media por cada trama con el umbral de decisión SAD (a través de un comparador, por ejemplo), es decir:
50 If SNRav > umbralSAD SADlocal = 1 SAD = 1
else SADlocal = 1 55 If en periodo de mantenimiento SAD = 1 else SAD = 0 end 60 end.
E08783143
20-03-2015
Primer nivel de estimación y actualización de ruido Un estimador 104 de ruido según se ilustra en la Figura 1 calcula la energía total de ruido, la energía relativa de la trama, actualiza la energía media del ruido a largo plazo y la energía media de trama a largo plazo, la energía media por cada banda crítica, y un factor de corrección de ruido. Además, el estimador 104 de ruido realiza una
5 inicialización de energía de ruido y realiza una actualización a la baja.
La energía total de ruido por cada trama se calcula usando la relación siguiente:
en la que NCB(i) es la energía de ruido estimada por cada banda crítica.
15 La energía relativa de la trama viene dada por la diferencia entre la energía de trama en dB y la energía media a largo plazo. La energía relativa de la trama se calcula usando la relación siguiente:
imagen21
imagen22
20
en la que Et viene dada por la ecuación (6).
La energía media de ruido a largo plazo o energía media de trama a largo plazo es actualizada en cada trama. En 25 caso de tramas de señal activa (indicador SAD = 1), la energía de trama media a largo plazo es actualizada usando la relación:
imagen23
30
con valor inicial Ef = - 45 dB.
En caso de tramas de voz inactiva (indicador SAD = 0), la energía media de ruido a largo plazo es actualizada
35 como se indica a continuación:
imagen24
El valor inicial de Nf se establece igual a Ntot para las primeras 4 tramas. Además, en las primeras cuatro (4) 40 tramas, el valor de Ef está limitado por Ef ≥ N + 10.
tot
La energía de trama por cada banda crítica para toda la trama se calcula promediando las energías de ambos análisis espectrales primero y segundo en la trama usando la relación siguiente:
imagen25
La energía de ruido por cada banda crítica NCB(i) se inicializa a 0,03.
En esta etapa, sólo se realiza una actualización a la baja de la energía de ruido para las bandas críticas de manera que la energía es menor que la energía de ruido de fondo. En primer lugar, se calcula la energía de ruido actualizada temporal usando la relación siguiente:
imagen26
E08783143
20-03-2015
la trama previa.
A continuación, para i = 0 a 19, si Ntmp(i) < NCB(i), entonces NCB(i) = Ntmp(i).
5 Más tarde, se realiza un segundo nivel de la estimación y actualización de ruido estableciendo de NCB(i) = Ntmp(i) si la trama es declarada como una trama inactiva.
Segundo nivel de estimación y actualización de ruido
El módulo 107 paramétrico de detección de actividad sonora y de actualización de estimación de ruido actualiza
10 las estimaciones de energía de ruido por cada banda crítica a ser usadas en el detector 103 de actividad sonora en la siguiente trama. La actualización se realiza durante los periodos de señal inactivos. Sin embargo, la decisión SAD realizada anteriormente, basada en la SNR por cada banda crítica, no es usada para determinar si se actualizan o no las estimaciones de energía de ruido. Se realiza otra decisión en base a otros parámetros independientes en lugar de la SNR por cada banda crítica. Los parámetros usados para la actualización de las
15 estimaciones de energía de ruido son: estabilidad de tono, no estacionariedad de la señal, sonoridad y la relación entre las energías de error residual LP de 2º orden y 16º y generalmente tienen una baja sensibilidad a las variaciones de nivel de ruido. La decisión para la actualización de las estimaciones de energía de ruido es optimizada para señales de voz. Para mejorar la detección de las señales musicales activa, se usan los parámetros siguientes diferentes: diversidad espectral, no estacionariedad complementaria, carácter ruido y
20 estabilidad tonal. La detección de música se explicará en detalle en la descripción siguiente.
La razón para no usar la decisión SAD para la actualización de las estimaciones de energía de ruido es hacer la estimación de ruido robusta a niveles de ruido que cambian rápidamente. Si se usó la decisión SAD para la actualización de las estimaciones de energía de ruido, un aumento repentino en el nivel de ruido causaría un
25 aumento de la SNR incluso para tramas de señal inactivas, impidiendo la actualización de las estimaciones de energía de ruido, lo que a su vez mantendría la SNR alta en las siguientes tramas, y así sucesivamente. Por consiguiente, la actualización sería bloqueada y se necesitaría alguna otra lógica para reanudar la adaptación de ruido.
30 En la realización ilustrativa no restrictiva de la presente invención, se realiza un análisis de tono en bucle abierto en un módulo 106 analizador LP y rastreador de tono en la Figura 1) para calcular tres estimaciones de tono en bucle abierto por cada trama: d0, d1 y d2 correspondientes a la primera mitad de la trama, segunda mitad de la trama y la anticipación, respectivamente. Este procedimiento es bien conocido por las personas con conocimientos ordinarios en la materia y no se describirá adicionalmente en la presente descripción (por ejemplo, VMR-WB [Source
35 Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems, 3GPP2 Technical Specification C.S0052-A v1.0, Abril de 2005 (http://www.3gpp2.org)]). El módulo 106 analizador LP y rastreador de tono calcula un contador de estabilidad de tono usando la relación siguiente:
imagen27
en la que d-1 es el retardo de la segunda mitad de la trama de la trama previa. Para retardos de tono mayores que
45 122, el módulo 105 analizador LP y rastreador de tono establece d2 = d1. De esta manera, para dichos retardos, el valor de pc en la ecuación (19) es multiplicado por 3/2 para compensar el tercer término faltante en la ecuación. La estabilidad de tono es verdadera si el valor de PC es menor de 14. Además, para las tramas con baja sonoridad, pc se establece a 14 para indicar inestabilidad de tono. Más específicamente:
imagen28
en la que Cnorm(d) es la correlación bruta normalizada y re es una corrección opcional añadida a la correlación
55 normalizada para compensar la reducción de la correlación normalizada en presencia de ruido de fondo. El umbral de sonoridad umbralCpc = 0,52 para WB y umbralCpc = 0,65 para NB. El factor de corrección puede ser calculado usando la relación siguiente:
imagen29
E08783143
20-03-2015
en la que Ntot es la energía de ruido total por cada trama calculada según la ecuación (11).
La correlación bruta normalizada puede ser calculada en base a la señal swd(n) acústica ponderada diezmada usando la ecuación siguiente:
imagen30
15
en la que el límite de los sumatorios depende del propio retardo. La señal swd(n) ponderada es la usada en el análisis de tono en bucle abierto y proporcionada filtrando la señal de sonido de entrada pre-procesada desde el pre-procesador 101 a través de un filtro de ponderación de la forma A(z/γ)/(1-μz-1). La señal swd(n) ponderada es
20 diezmada en un factor de 2 y los límites de los sumatorios se proporcionan en función de:
Lsec = 40 para d = 10,..., 16 Lsec = 40 para d = 10,..., 16 Lsec = 62 para d = 32,..., 61
25 Lsec = 115 para d = 62,..., 115
Estas longitudes aseguran que la longitud del vector correlacionado comprende al menos un periodo de tono que ayuda a obtener una detección de tono en bucle abierto robusta. Los instantes tinicio están relacionados con el comienzo de la trama actual y vienen dados por:
30 tinicio = 0 para la primera mitad de la trama tinicio = 138 para la segunda mitad de la trama tinicio = 256 para la anticipación
35 a una frecuencia de muestreo de 12,8 kHz.
El módulo 107 paramétrico de detección de actividad sonora y de actualización de estimación de ruido realiza una estimación de no estacionariedad de la señal en base al producto de las relaciones entre la energía por cada banda crítica y la energía media a largo plazo por cada banda crítica.
40 La energía media a largo plazo por cada banda crítica es actualizada usando la relación siguiente:
imagen31
en la que bmin = 0 y bmax = 19 en el caso de señales de banda ancha, y bmin = 1 y bmax = 16 en el caso de señales de banda estrecha, y E (i) es la energía de trama por cada banda crítica definida en la ecuación (15). El factor
CB
αe de actualización es una función lineal de la energía de trama total, definida en la Ecuación (6), y se calcula 50 como sigue:
Para señales de banda ancha: αe = 0,024Et - 0,235 con 0,5 ≤ αe ≤ 0,99.
Para señales de banda estrecha: αe = 0,00091Et + 0,3185 con 0,5 ≤ αe ≤ 0,999. 55 Et se calcula usando la ecuación (6).
La no estacionariedad de la trama viene dada por el producto de las relaciones entre la energía de trama y la energía media a largo plazo por cada banda crítica. Más específicamente: 60
E08783143
20-03-2015
imagen32
El módulo 107 paramétrico de detección de actividad sonora y de actualización de estimación de ruido produce además un factor de sonoridad para la actualización de ruido usado la relación siguiente:
imagen33
Finalmente, el módulo 107 paramétrico de detección de actividad sonora y de actualización de estimación de ruido calcula una relación entre la energía residual LP después del análisis LP de 2º orden y 16º orden usando la relación:
imagen34
en la que E(2) y E(16) son las energías residuales LP después de un análisis LP de 2º orden y 16º orden calculado
20 en el módulo 106 analizador LP y rastreador de tono usando recursión de Levinson-Durbin, que es un procedimiento bien conocido por las personas con conocimientos ordinarios en la materia. Esta relación refleja el hecho de que para representar una envolvente espectral de la señal, generalmente se necesita un orden superior de LP para una señal de voz que para el ruido. En otras palabras, se supone que la diferencia entre E(2) y E(16) es inferior para el ruido que para la voz activa.
25 La decisión de actualización realizada por el módulo 107 paramétrico de detección de actividad sonora y de actualización de estimación de ruido se determina en base a una variable actualiza_ruido que se establece inicialmente a 6 y se decrementa en 1 si se detecta una trama inactiva y se incrementa en 2 si se detecta una trama activa. Además, la variable actualiza_ruido está limitada entre 0 y 6. Las estimaciones de energía de ruido
30 sólo se actualizan cuando actualiza_ruido = 0.
El valor de la variable actualiza_ruido es actualizado en cada trama de la manera siguiente:
If (noestac > umbralestac) OR (pc < 14) OR (sonoridad > umbralCnorm) OR (relación_resid > umbralresid) 35 actualiza_ruido = actualiza_ruido + 2 else actualiza_ruido = actualiza_ruido - 2
donde para señales de banda ancha, umbralestac = umbralCnorm = 0,85 y umbralresid = 1,6, y para señales de banda 40 estrecha, umbralestac = 500.000, umbralCnorm= 0,7 y umbralresid = 10,4.
En otras palabras, las tramas se declaran inactivas para la actualización de ruido cuando
(noestac ≤ umbralestac) AND (pc ≥ 14) AND (sonoridad ≤ umbralCnorm) AND (relación_resid ≤ umbralresid)
45 y se usa un mantenimiento de 6 tramas antes de realizar la actualización de ruido.
De esta manera, si actualiza_ruido = 0 entonces para i = 0 a 19 NCB(i) = Ntmp(i) donde Ntmp(i) es la energía de ruido actualizada temporal ya calculada en la Ecuación (18). 50
Mejora de la detección de ruido por las señales musicales
La estimación del ruido descrita anteriormente tiene sus limitaciones para ciertas señales musicales, tales como conciertos de piano o rock y pop instrumental, ya que se desarrolló y optimizó principalmente para detección del habla. Para mejorar la detección de señales musicales en general, el módulo 107 paramétrico de detección de 55 actividad sonora y de actualización de estimación de ruido usa otros parámetros o técnicas en conjunción con las existentes. Estos otros parámetros o técnicas comprenden, tal como se ha descrito anteriormente en la presente memoria, la diversidad espectral, la no estacionariedad complementaria, el carácter del ruido y la estabilidad tonal, calculados por un calculador de diversidad espectral, un calculador de no estacionariedad complementaria, un calculador de carácter de ruido y un estimador de tonalidad, respectivamente. Se describirán en detalle en la
60 presente memoria, a continuación.
E08783143
20-03-2015
Diversidad espectral
La diversidad espectral proporciona información acerca de los cambios significativos de la señal en el dominio de la frecuencia. Los cambios son rastreados en las bandas críticas comparando las energías en el primer análisis espectral de la trama actual y el segundo análisis espectral hace dos tramas. La energía en una banda i crítica del
5 primer análisis espectral en la trama actual se denota como E(1)CB(i). Denótese la energía en la misma banda crítica calculada en el segundo análisis espectral hace dos tramas como E(-2)CB(i). Estas dos energías se inicializan a 0,0001. A continuación, para todas las bandas críticas superiores a 9, el máximo y el mínimo de las dos energías se calculan como se indica a continuación:
imagen35
15 Posteriormente, se calcula una relación entre la energía máxima y mínima en una banda crítica específica como
imagen36
20 Finalmente, el módulo 107 paramétrico de detección de actividad sonora y de actualización de estimación de ruido calcula un parámetro de diversidad espectral como una suma ponderada normalizada de las relaciones en la que el propio peso es la energía máxima Emax(i). Este parámetro de diversidad espectral viene determinado por la relación siguiente:
El parámetro div_espec se usa en la decisión final acerca de la actividad musical y la actualización de energía de ruido. El parámetro div_espec se usa también como un parámetro auxiliar para el cálculo de un parámetro no 35 estacionariedad complementaria que se describe más adelante.
No estacionariedad complementaria
La inclusión de un parámetro no estacionariedad complementaria está motivada por el hecho de que el parámetro no estacionariedad, definido en la ecuación (22), falla cuando un ataque agudo de energía en una señal musical es 40 seguido por una disminución lenta de la energía. En este caso, la energía media a largo plazo por cada banda crítica, ECB,LT(i), definida en la Ecuación (21), aumenta lentamente durante el ataque, mientras que la energía de la trama por banda crítica, definida en la Ecuación (15), disminuye lentamente. En una cierta trama después del ataque, estos dos valores de energía se encuentran y el parámetro noestac resulta en un valor pequeño que indica una ausencia de señal activa. Esto conduce a una actualización de ruido falsa y, posteriormente, a una decisión
45 SAD falsa.
Para superar este problema, se calcula una energía media a largo plazo alternativa por cada banda crítica usando la relación siguiente:
imagen37
imagen38
La variable E2CB,LT(i) es inicializada a 0,03 para todo i. La Ecuación (26) se asemeja mucho a la Ecuación (21) 55 siendo la única diferencia el factor βe de actualización que se calcula como sigue:
imagen39
E08783143
20-03-2015
en la que umbraldiv_espec = 5. De esta manera, cuando se detecta un ataque de energía (div_espec > 5) la energía media alternativa a largo plazo es establecida inmediatamente a la energía media de trama, es decir, E2CB,LT(i) =
E (i). De lo contrario, esta energía media alternativa a largo plazo es actualizada en la misma forma que la no
estacionariedad convencional, es decir, usando el filtro exponencial con el factor αe de actualización. El parámetro no estacionariedad complementaria se calcula de la misma manera que noestac, pero usando E2CB,LT(i), es decir,
CB
imagen40
15 El parámetro no estacionariedad complementaria, noestac2, puede fallar unos pocas tramas justo después de un ataque de energía, pero no debería fallar durante los pasos caracterizados por una energía lentamente decreciente. Debido a que el parámetro noestac funciona bien en ataques de energía y unas pocas tramas después, por lo tanto, una disyunción lógica de noestac y noestac2 resuelve el problema de la detección de señal inactiva en ciertas señales musicales. Sin embargo, la disyunción se aplica sólo en pasajes que es "probable que sean
20 activos". La probabilidad se calcula como sigue:
If (noestac > umbralestac) OR (estabilidad_tonal = 1)) pred_act_LT = ka pred_act_LT + (1 – ka) . 1 else 25 pred_act_LT = ka pred_act_LT + (1 – ka) . 0 end.
El coeficiente ka se establece a 0,99. El parámetro pred_act_LT que está comprendido en el intervalo <0:1> puede ser interpretado como un predictor de actividad. Cuando es cercano a 1, es probable que la señal sea activa, y
30 cuando es cercano a 0, es probable que sea inactiva. El parámetro pred_act_LT se inicializa a uno. En la condición anterior, estabilidad_tonal es un parámetro binario que se usa para detectar una señal tonal estable. Este parámetro estabilidad_tonal se describirá en la descripción siguiente.
El parámetro noestac2 se toma en consideración (en disyunción con noestac) en la actualización de la energía de
35 ruido sólo si pred_act_LT es mayor que cierto umbral, el cual ha sido establecido a 0,8. La lógica de la actualización de energía de ruido se explica en detalle al final de la presente sección.
Carácter de ruido
Carácter de ruido es otro parámetro que se usa en la detección de ciertas señales musicales similares al ruido, 40 tales como los platillos o los tambores de baja frecuencia. Este parámetro se calcula usando la relación siguiente:
imagen41
50 El parámetro caract_ruido se calcula sólo para las tramas cuyo contenido espectral tiene por lo menos una energía mínima, lo cual se cumple cuando el numerador y el denominador de la Ecuación (28) son mayores de 100. El parámetro caract_ruido tiene un límite superior de 10 y su valor a largo plazo se actualiza usando la relación siguiente:
imagen42
El valor inicial de caract_ruido_LT es 0 y αn se establece a un valor de 0,9. Este parámetro caract_ruido_LT se usa en la decisión acerca de la actualización de energía de ruido que se explica al final de la presente sección.
E08783143
20-03-2015
Estabilidad tonal
Estabilidad tonal es el último parámetro usado para prevenir una actualización falsa de las estimaciones de energía de ruido. Estabilidad tonal se usa también para evitar declarar algunos segmentos de música como tramas sordas. Estabilidad tonal se usa además en un códec de banda súper ancha incorporado para decidir qué modelo 5 de codificación se usará para codificar la señal de sonido por encima de 7 kHz. La detección de la estabilidad tonal hace uso de la naturaleza tonal de las señales musicales. En una señal musical típica hay tonos que son estables durante varias tramas consecutivas. Para hacer uso de esta característica, es necesario realizar un seguimiento de las posiciones y las formas de los fuertes picos espectrales, ya que estos pueden corresponder a los tonos. La detección de la estabilidad tonal se basa en un análisis de correlación entre los picos espectrales en la trama
10 actual y los de la trama pasada. La entrada es el espectro logarítmico de energía media definido en la Ecuación (4). El número de contenedores espectrales se denota como NESPEC (el contenedor 0 es el componente CC y NESPEC = LFFT/2). En la descripción siguiente, el término "espectro" se referirá al espectro logarítmico de energía media, definido por la Ecuación (4).
15 La detección de estabilidad tonal se realiza en tres etapas. Además, la detección de estabilidad tonal usa un calculador de un espectro residual actual, un detector de picos en el espectro residual actual y un calculador de un mapa de correlación y un mapa de correlación a largo plazo, que se describirán más adelante en la presente memoria.
20 En la primera etapa, se buscan los índices de los mínimos locales del espectro (por parte de un localizador de mínimos de espectro por ejemplo), en un bucle descrito por la fórmula siguiente y se almacenan en una memoria intermedia imin que puede ser expresada como sigue:
imagen43
en la que el símbolo Λ significa AND lógico.
30 En la Ecuación (30), EdB(i) denota el espectro logarítmico de energía media calculado mediante la Ecuación (4). El primer índice en imin es 0, si EdB(0) < EdB(1). Por consiguiente, el último índice en imin es NESPEC-1, si EdB(NESPEC-1) < EdB(NESPEC-2). Denótese el número de mínimos encontrados como Nmin.
La segunda etapa consiste en calcular un suelo espectral (mediante un estimador de suelo espectral, por ejemplo)
35 y restarlo del espectro (mediante un sustractor adecuado, por ejemplo). El suelo espectral es una función lineal por tramos que se extiende a través de los mínimos locales detectados. Cada tramo lineal entre dos mínimos imin(x) e imin(x+1) consecutivo puede describirse como:
imagen44
en la que k es la pendiente de la línea y q = EdB(imin(x)). La pendiente k puede ser calculada usando la relación siguiente:
imagen45
De esta manera, el suelo espectral es una conexión lógica de todos los tramos:
imagen46
E08783143
20-03-2015
Los principales contenedores hasta imin(0) y los contenedores de terminación desde imin (Nmin -1)del suelo espectral se establecen al propio espectro. Finalmente, el suelo espectral se resta del espectro usando la relación siguiente:
imagen47
y el resultado se denomina espectro residual. El cálculo del suelo espectral se ilustra en la Figura 3.
En la tercera etapa, se calculan un mapa de correlación y un mapa de correlación a largo plazo a partir del
10 espectro residual de la trama actual y la trama anterior. Una vez más, esta es una operación por tramos. De esta manera, el mapa de correlación se calcula pico a pico ya que los mínimos delimitan los picos. En la descripción siguiente, se usará el término "pico" para denotar un tramo entre dos mínimos en el espectro residual Edb,res.
Denótese el espectro residual de la trama anterior como E(-1)dB,res(j). Para cada pico en el espectro residual actual
15 se calcula una correlación normalizada en el que la forma en el espectro residual anterior corresponde a la posición de este pico. Si la señal era estable, los picos no deberían moverse considerablemente de trama a trama y sus posiciones y formas deberían ser aproximadamente la misma. De esta manera, la operación de correlación tiene en cuenta todos los índices (contenedores) de un pico específico, que está delimitada por dos mínimos consecutivos. Más específicamente, la correlación normalizada se calcula usando la relación siguiente:
20
Los principales contenedores de map_cor hasta imin(0) y los contenedores de terminación map_cor desde imin(Nmin 1) se establecen a cero. El mapa de correlación se muestra en la Figura 4.
35 El mapa de correlación de la trama actual se usa para actualizar su valor a largo plazo que viene descrito por:
imagen48
imagen49
en la que αmap = 0,9. El map_cor_LT cor se inicializa a cero para todo k. Finalmente, todos los valores de map_cor_LT se suman entre sí (mediante un sumador, por ejemplo) como sigue:
imagen50
Si algún valor de map_cor_LT(j), j = 0,... NESPEC- 1, supera un umbral de 0,95, se establece un indicador cor_fuerte (que puede ser considerado como un detector) a uno, de lo contrario, se establece a cero.
55 La decisión acerca de la estabilidad tonal se calcula sometiendo sum_map_cor a un umbral adaptativo, umbral_tonal. Este umbral se inicializa a 56 y se actualiza cada trama de la manera siguiente:
60
E08783143
20-03-2015
if (sum_map_cor > 56) umbral_tonal = umbral_tonal – 0,2 else 5 umbral_tonal = umbral_tonal + 0,2 end.
El umbral umbral_tonal adaptativo tiene un límite superior de 60 y un límite inferior de 49. De esta manera, el umbral umbral_tonal adaptativo disminuye cuando la correlación es relativamente buena, indicando un segmento
10 de señal activa, y si no aumenta. Cuando el umbral es más bajo, es más probable que más tramas sean clasificadas como activas, especialmente al final de los períodos activos. Por lo tanto, el umbral adaptativo puede considerarse como un mantenimiento.
El parámetro estabilidad_tonal se establece a uno cada vez que sum_map_cor es mayor que umbral_tonal o 15 cuando el indicador cor_fuerte se establece a uno. Más específicamente:
If ((sum_map_cor > umbral_tonal) OR (cor_fuerte = 1)) estabilidad_tonal = 1 else 20 estabilidad_tonal = 0 end.
Uso de los parámetros de detección de música en la actualización de energía de ruido
25 Todos los parámetros de detección de música se incorporan en la decisión definitiva realizada en el módulo 107 paramétrico de detección de actividad sonora y actualización de estimación de ruido (Act) acerca de la actualización de las estimaciones de energía de ruido. Las estimaciones de energía de ruido se actualizan siempre que el valor actualiza_ruido es igual a cero. Inicialmente, se establece a 6 y se actualiza cada trama de la manera siguiente:
30 if (noestac > umbral_estac) OR (pc < 14) OR (sonoridad > umbralCnorm) OR (relación_resid > umbral_resid) OR (estabilidad_tonal = 1) OR (car_ruido_LT > 0,3) OR ((pred_act_LT > 0,8) AND (noestac2 > umbral_estac))
actualiza_ruido = actualiza_ruido + 2 else 35 actualiza_ruido = actualiza_ruido - 1 end.
Si la condición combinada tiene un resultado positivo, la señal es activa y el parámetro actualiza_ruido se incrementa. De lo contrario, la señal es inactiva y el parámetro se decrementa. Cuando llega a 0, la energía de
40 ruido es actualizada con la energía de la señal actual.
Además de en la actualización de energía de ruido, el parámetro estabilidad_tonal se usa también en el algoritmo de clasificación de señal de sonido sorda. Específicamente, el parámetro se usa para mejorar la robustez de la clasificación de señal sorda sobre música, tal como se describirá en la siguiente sección.
45
Clasificación de señal de sonido (clasificador 108 de señal de sonido)
La filosofía general subyacente en el clasificador 108 de señal de sonido (Figura 1) se representa en la Figura 5. El enfoque puede ser descrito como sigue. La clasificación de señal de sonido se realiza en tres etapas en los módulos 501, 502 y 503 lógicos, cada uno de los cuales discrimina una clase de señal específica. En primer lugar,
50 un detector 501 de actividad de señal (SAD) discrimina entre tramas de señal activas e inactivas. Este detector 501 de actividad de señal es el mismo que el del detector 103 de actividad de señal en la Figura 1. El detector de actividad de señal ya ha sido descrito en la descripción anterior.
Si el detector 501 de actividad de señal detecta una trama inactiva (señal de ruido de fondo), entonces la cadena
55 de clasificación termina y, si hay compatibilidad con transmisión discontinua (Discontinuous Transmission, DTX), un módulo 541 de codificación que puede ser incorporado en el codificador 109 (Figura 1) codifica la trama con generación de ruido de confort (CNG). Si no hay compatibilidad con DTX, la trama continúa en la clasificación de señal activa, y más frecuentemente es clasificada como trama de voz sorda.
60 Si una trama de señal activa es detectada por el detector 501 de actividad sonora, la trama es sometida a un segundo clasificador 502 dedicado a discriminar tramas de voz sordas. Si el clasificador 502 clasifica la trama
E08783143
20-03-2015
como señal de voz sorda, la cadena de clasificación termina, un módulo 542 de codificación que puede ser incorporado en el codificador 109 (Figura 1) codifica la trama con un procedimiento de codificación optimizado para señales de voz sordas.
5 De lo contrario, la trama de señal es procesada a través de un clasificador 503 de "voz sonora estable". Si la trama es clasificada como una trama sonora estable por el clasificador 503, a continuación, un módulo 543 de codificación que puede ser incorporado en el codificador 109 (Figura 1) codifica la trama usando un procedimiento de codificación optimizado para señales sonoras estables o cuasi periódicas.
10 De lo contrario, es probable que la trama contenga un segmento de señal no estacionario, tal como un inicio de voz sonora o voz sonora que evoluciona rápidamente o una señal musical. Típicamente, estas tramas requieren un módulo 544 de codificación de propósito general que puede ser incorporado en el codificador 109 (Figura 1) para codificar la trama a una alta tasa de bits para mantener una buena calidad subjetiva.
15 A continuación, se describirá la clasificación de tramas de señal sordas y sonoras. El detector 501 SAD (o 103 en la Figura 1) usado para discriminar las tramas inactivas ha sido ya descrito en la descripción anterior.
Las partes sordas de la señal de voz se caracterizan por carecer del componente periódico y pueden ser divididas en tramas inestables, en las que la energía y el espectro cambian rápidamente, y tramas estables, en las que estas
20 características se mantienen relativamente estables. La realización ilustrativa no restrictiva de la presente invención propone un procedimiento para la clasificación de las tramas sordas usando los parámetros siguientes:
medida de sonoridad, calculada como una correlación normalizada media ( r );
x
medida de inclinación espectral media ( e );
25 aumento máximo de energía en tiempo corto desde nivel bajo (dE0) diseñado para detectar de manera eficiente las oclusivas de voz en una señal; la estabilidad tonal para discriminar la música de una señal sorda (descrita en la descripción anterior); y energía relativa de trama (Erel) para detectar las señales de muy baja energía.
30 Medida de sonoridad La correlación normalizada, usada para determinar la medida de sonoridad, se calcula como parte del análisis de tono en bucle abierto realizado en el módulo 106 analizador LP y rastreador de tono de la Figura 1. Pueden usarse, por ejemplo, tramas de 20 ms. El módulo 106 analizador LP y rastreador de tono normalmente emite una estimación de tono en bucle abierto cada 10 ms (dos veces por cada trama). Aquí, el módulo 106 analizador LP y
35 rastreador de tono se usa también para producir y emitir las medidas de correlación normalizadas. Estas correlaciones normalizadas se calculan sobre una señal ponderada y una señal ponderada pasada en el retardo de tono de bucle abierto. La señal sw(n) de voz ponderada es calculada usando un filtro de ponderación perceptual. Por ejemplo, puede usarse un filtro de ponderación perceptual con denominador fijo, adecuado para señales de banda ancha. Un ejemplo de una función de transferencia para el filtro de ponderación perceptual viene
40 determinado por la relación siguiente:
imagen51
45 en la que 0 < γ2 < γ1≤ 1 en la que A(z) es la función de transferencia de un filtro de predicción lineal (LP) calculada en el módulo 106 analizador LP y rastreador de tono, que viene determinada por la relación siguiente: 50
imagen52
Los detalles del análisis LP y el análisis de tono en bucle abierto no se describirán adicionalmente en la presente memoria, ya que se cree que son bien conocidos por las personas con conocimientos ordinarios en la materia.
La medida de sonoridad viene dada por la correlación media C que se define como:
norm
imagen53
E08783143
20-03-2015
en la que Cnorm(d0), Cnorm(d1) y Cnorm(d2) son, respectivamente, la correlación normalizada de la primera mitad de la trama actual, la correlación normalizada de la segunda mitad de la trama actual, y la correlación normalizada de la anticipación (el principio de la trama siguiente). Los argumentos a las correlaciones son los retardos de tono en bucle abierto indicados anteriormente calculados en el módulo 106 analizador LP y rastreador de tono de la Figura
1. Por ejemplo, puede usarse una anticipación de 10 ms. Se añade un factor re de corrección a la correlación media con el fin de compensar el ruido de fondo (en presencia de ruido de fondo el valor de correlación disminuye). El factor de corrección es calculado usando la relación siguiente:
imagen54
en la que Ntot es la energía de ruido total por cada trama calculada según la Ecuación (11).
15 Inclinación espectral El parámetro inclinación espectral contiene información acerca de la distribución de frecuencias de la energía. La inclinación espectral puede ser estimada en el dominio de la frecuencia como una relación entre la energía concentrada en las frecuencias bajas y la energía se concentra en las frecuencias altas. Sin embargo, puede ser estimada también usando otros procedimientos, tales como una relación entre los dos primeros coeficientes de
20 autocorrelación de la señal.
El analizador 102 espectral en la Figura 1 se usa para realizar dos análisis espectrales por cada trama, tal como se ha descrito en la descripción anterior. La energía en las frecuencias altas y en las frecuencias bajas es calculada siguiendo las bandas críticas perceptivas [M. Jelinek y R. Salami, " Noise Reduction Method for Wideband Speech
25 Coding", en Proc. Eusipco, Viena, Austria, Septiembre de 2004], repetido aquí por conveniencia
imagen55
La energía en las frecuencias altas es calculada como el promedio de las energías de las dos últimas bandas críticas usando las relaciones siguientes:
imagen56
40 en la que las energías de las bandas críticas ECB(i) se calculan según la Ecuación (2). El cálculo se realiza dos veces para ambos análisis espectrales.
La energía en las frecuencias bajas se calcula como el promedio de las energías en las primeras 10 bandas
imagen57
50 Las bandas críticas intermedias han sido excluidas del cálculo para mejorar la discriminación entre las tramas con alta concentración de energía en las frecuencias bajas (generalmente sonoras) y con alta concentración de energía en las frecuencias altas (generalmente sordas). En la parte media, el contenido de energía no es característico de ninguna de las clases y aumenta la confusión de la decisión.
55 Sin embargo, la energía en las frecuencias bajas se calcula de manera diferente para las señales sordas armónicas con alto contenido de energía en las frecuencias bajas. Esto es debido al hecho de que para los segmentos de voz sonora femenina, la estructura armónica del espectro puede ser explotada para aumentar la discriminación sonora-sorda. Las señales afectadas son aquellas cuyo periodo de tono es más corto que 128 o aquellas que no se consideran a priori como sordas. Las señales de sonido consideradas a priori como sordas
60 deben cumplir la condición siguiente:
E08783143
20-03-2015
imagen58
De esta manera, para las señales discriminadas por la condición anterior, la energía en las frecuencias bajas se calcula por contenedor sólo se tienen en cuenta en la suma los contenedores cuyas frecuencias son suficientemente cercanas a los armónicos. Más específicamente, se usa la relación siguiente:
imagen59
en la que Kmin es el primer contenedor (Kmin = 1 para WB y Kmin = 3 para NB) y ECONT(k) son las energías de contenedor, tal como se define en la Ecuación (3), en los primeros 25 contenedores de frecuencia (el componente 15 CC se omite). Estos 25 contenedores corresponden a las primeras 10 bandas críticas. En la suma anterior, sólo se consideran los términos cercanos los armónicos del tono; wh(i) se establece a 1 si la distancia entre los armónicos más cercanos no es mayor que un cierto umbral de frecuencia (por ejemplo, 50 Hz) y se establece en 0 en caso contrario; por lo tanto, sólo papeleras se tienen en cuenta los contenedores alejados menos que 50 Hz de los armónicos más cercanos. El contador cnt es igual al número de términos distintos de cero en la suma. Por lo
20 tanto, si la estructura es armónica en las frecuencias bajas, solo se incluirán términos de energía alta en la suma. Por otra parte, si la estructura no es armónica, la selección de los términos será aleatoria y la suma será menor. De esta manera, pueden detectarse incluso las señales de sonido sordas con alto contenido de energía en las frecuencias bajas.
25 La inclinación espectral viene dada por la relación siguiente:
en la que N y N son las energías medias de ruido en las dos (2) últimas bandas críticas y las primeras 10
h l
bandas críticas (o las primeras 9 bandas críticas para NB), respectivamente, calculadas de la misma manera que
Eh y El en las Ecuaciones (39 ) y (40). Las energías de ruido estimadas se han incluido en el cálculo de
35 inclinación para tener en cuenta la presencia de ruido de fondo. Para las señales de NB, las bandas faltantes son compensadas multiplicando et por 6. El cálculo de la inclinación espectral se realiza dos veces por cada trama para obtener et(0) y et(1) correspondientes a ambos análisis espectrales primero y segundo por cada trama. La inclinación espectral media usada en la clasificación de tramas sordas viene dada por
imagen60
imagen61
en la que eantigua es la inclinación en la segunda mitad de la trama previa. 45
Aumento máximo de energía de corta duración a bajo nivel El aumento máximo de energía de corta duración en el nivel bajo dE0 se evalúa sobre la señal de sonido s(n), donde n=0 corresponde al comienzo de la trama actual. Por ejemplo, se usan tramas de voz de 20 ms y cada trama se divide en 4 subtramas para fines de codificación de voz. La energía de la señal se evalúa dos veces por
50 cada subtrama, es decir, 8 veces por cada trama, en base a segmentos de corta duración de una longitud de 32 muestras (a una tasa de muestreo de 12,8 kHz). Además, también se calculan las energías a corto plazo de las últimas 32 muestras de la trama previa. Las energías de corta duración se calculan usando la relación siguiente:
imagen62
en la que j = -1 y j = 0,..., 7 corresponden al final de la trama previa y la trama actual, respectivamente. Se calcula otro conjunto de 9 energías máximas desplazando los índices de señal en la Ecuación (45) en 16 muestras. Es
E08783143
20-03-2015
decir
imagen63
Para aquellas energías que son suficientemente bajas, es decir, que cumplen la condición 10log(Est(j)) < 37, se calcula la relación siguiente:
imagen64
para el primer conjunto de índices y el mismo cálculo se repite para E(2)st(j) para obtener dos conjuntos de relaciones rat(1)(j) y de rat(2)(j). El único máximo en estos dos conjuntos se busca como sigue:
imagen65
que es el aumento máximo de energía de corta duración en el nivel bajo.
25 Medida de la planitud del espectro de ruido En este ejemplo, las tramas inactivas son codificadas normalmente con un modo de codificación diseñado para voz sorda en ausencia de operación DTX. Sin embargo, en el caso de un ruido de fondo cuasi periódico, tal como algunos ruidos de coche, se consigue una reproducción más fiel de ruido si en su lugar se usa una codificación genérica para WB.
30 Para detectar este tipo de ruido de fondo, se calcula una medida de la planitud del espectro de ruido de fondo y se promedia en el tiempo. En primer lugar, se calcula la energía media de ruido para las cuatro primeras y últimas bandas críticas de la manera siguiente:
35
40
imagen66
45 A continuación, la medida de planitud es calculada usando la relación siguiente:
imagen67
y es promediada en el tiempo usando la relación siguiente:
imagen68
[1] [0]
en la que fruido_ plano es la medida de planitud promediada de la trama pasada y fruido_ plano es el valor actualizado de la medida de planitud promediada de la trama actual.
E08783143
20-03-2015
Clasificación señal sorda
La clasificación de tramas de señal sordas se basa en los parámetros descritos anteriormente, concretamente: la medida C de sonoridad, la inclinación espectral media e , el aumento máximo de energía de corta duración a
norm t
[0]
baja nivel dE0 y la medida de la planitud de espectro de ruido de fondo, fruido _ plano . La clasificación es soportada
por el parámetro de estabilidad tonal y la energía relativa de trama calculada durante la fase de actualización de energía de ruido (módulo 107 en la Figura 1). La energía relativa de trama es calculada usando la relación siguiente:
imagen69
en la que Et es la energía de trama total (en dB) calculada en la Ecuación (6) y Ef es la energía media de trama largo plazo, actualizada en cada trama activa usando la relación siguiente:
imagen70
La actualización tiene lugar sólo cuando el indicador SAD está establecido (variable SAD igual a 1). 20 Las reglas para la clasificación como sordas para las señales de WM se resumen a continuación:
[(( C < 0,695) AND ( e < 4,0)) OR (Erel < -14)] AND
norm t
[Última trama INACTIVA o SORDA OR ((eantiguo < 2,4) AND
25 (Cnorm(d0) + re < 0,66))] AND [dE0 < 250] AND [ef(1) < 2,7] AND
[0]
[(indicador SAD local = 1) OR ( fruido_ plano < 1,45) OR ( Nf < 20)] AND
30 NOT [(estabilidad_tonal AND ((( Cnorm > 0,52) AND ( et > 0,5)) OR ( et > 0.85)) AND (Erel > -14) AND indicador SAD establecido a 1]
La primera línea de la condición está relacionada con las señales de baja energía y las señales con baja correlación que concentran su energía en las frecuencias altas. La segunda línea cubre los desplazamientos
35 sonoros, la tercera línea cubre los segmentos explosivos de una señal y la cuarta línea es para los inicios sonoros. La quinta línea asegura un espectro plano en caso de tramas inactivas ruidosas. La última línea discrimina las señales musicales que si no serían declaradas como sordas.
Para las señales de NB, la condición de clasificación sorda tiene la forma siguiente: 40 [indicador SAD local establecido a 0 OR (Erel < -25) OR
(( C < 0,61) AND e < 7,0) AND (última trama INACTIVA OR
norm t
SORDA OR ((eantiguo < 7,0) AND (Cnorm(d0) + re < 0,52))))] AND [dE0 < 250] AND 45 [ et < 390] AND
NOT [(estabilidad_tonal AND ((( C > 0,52) AND ( e > 0,5)) OR ( e > 0,75)) AND
norm tt
(Erel > -10) AND indicador SAD establecido a 1]
Los árboles de decisión para el caso WB y el caso NB se muestran en la Figura 6. Si se cumplen las condiciones 50 combinadas, la clasificación termina seleccionando el modo de codificación sorda.
Clasificación de señal sonora
Si una trama no es clasificada como trama inactiva o como trama sorda, entonces se comprueba si es una trama sonora estable. La regla de decisión se basa en la correlación normalizada en cada subtrama (con una resolución
E08783143
20-03-2015
de ¼ de submuestra), la inclinación espectral media y las estimaciones de tono de bucle abierto en todas las subtramas (con una resolución de ¼ de submuestra).
El procedimiento de estimación de tono en bucle abierto res realizado por el módulo 106 analizador LP y rastreador
5 de tono de la Figura 1. En la Ecuación (19), se usan tres estimaciones de tono en bucle abierto: d0, d1 y d2, correspondientes a la primera mitad de la trama, la segunda mitad de la trama y la anticipación. Con el fin de obtener información de tono precisa en todas las cuatro subtramas, se calcula una mejora de tono fraccionario con resolución de ¼ de muestra. Esta mejora es calculada sobre la señal sonora ponderada swd(n). En esta realización ejemplar, la señal ponderada swd(n) no es diezmada por la mejora de estimación de tono en bucle abierto. Al
10 principio de cada subtrama, se realiza un análisis de correlación corto (64 muestras a una frecuencia de muestreo de 12,8 kHz) con una resolución de 1 muestra en el intervalo (-7, +7) usando los retardos siguientes: para las subtramas primera y segunda y d1 para las subtramas tercera y cuarta. A continuación, las correlaciones son interpoladas alrededor de sus máximos en las posiciones fraccionarias dmax - 3/4, dmax - 1/2, dmax - 1/4, dmax, dmax + 1/4, dmax + 1/2, dmax + ¾. El valor que produce la correlación máxima es seleccionado como el retardo de tono
15 mejorado.
Denótense los retardos de tono de bucle abierto mejorados en las cuatro subtramas como T(0), T(1), T(2) y T(3) y sus correspondientes correlaciones normalizadas como C(0), C(1), C(2) y C(3). Entonces, la condición de clasificación de la señal sonora viene determinada por:
20 [C(0) > 0,605] AND [C(1) > 0,605] AND [C(2) > 0,605] AND [C(3) > 0,605] AND
25 [ e > 4] AND
t
[|T(1) -T(0)| < 3] AND [|T(2) -T(1)| < 3] AND [|T(3) -T(2)| < 3]
30 La condición dice que la correlación normalizada es suficientemente alta en todas las subtramas, las estimaciones de tono no divergen en toda la trama y la energía se concentra en las frecuencias bajas. Si esta condición se cumple, la clasificación termina seleccionando el modo de codificación de señal sonora, de lo contrario, la señal es codificada mediante un modo de codificación de señal genérica. La condición se aplica tanto a las señales de WB como a las señales de NB.
35
Estimación de tonalidad en el contenido de banda súper ancha
En la codificación de señales de banda súper ancha, se usa un modo de codificación específico para las señales de sonido con estructura tonal. El intervalo de frecuencias de interés es principalmente 7.000-14.000 Hz, pero también puede ser diferente. El objetivo es detectar tramas que tienen un fuerte contenido tonal en el intervalo de
40 interés de manera que el modo de codificación específico de tono puede ser usado de manera eficiente. Esto se realiza usando el análisis de estabilidad tonal descrito anteriormente en la presente descripción. Sin embargo, hay algunas aberraciones que se describen en esta sección.
En primer lugar, el suelo espectral que es restado del espectro logarítmico de energía se calcula de la manera
45 siguiente. El espectro logarítmico de energía es filtrado usando un filtro de media móvil (Moving Average, MA), o un filtro FIR, cuya longitud es LMA = 15 muestras. El espectro filtrado viene determinado por:
imagen71
Para evitar la complejidad computacional, la operación de filtrado es realizada sólo para j = LMA y para los otros retardos, se calcula como:
imagen72
E08783143
20-03-2015
Para los retardos 0,.., LMA-1 y NESPEC-LMA, …, NESPEC-1, el suelo espectral se calcula mediante extrapolación. Más específicamente, se usa la relación siguiente:
imagen73
10
En la primera ecuación anterior la actualización continúa desde LMA-1 hacia abajo hasta 0.
A continuación, el suelo espectral es restado del espectro logarítmico de energía de la misma manera que se ha
15 descrito anteriormente en la presente descripción.
A continuación, el espectro residual, denotado como Eres,dB(j), es suavizado sobre 3 muestras como sigue usando
un filtro de media móvil de tiempo corto:
imagen74
La búsqueda de mínimos espectrales y sus índices, el cálculo del mapa de correlación y el mapa de correlación a 25 largo plazo son los mismos que en el procedimiento descrito anteriormente en la presente descripción, usando el espectro suavizado E’res,dB(j).
La decisión acerca de la tonalidad de la señal en el contenido de banda súper ancha también es el mismo que el descrito anteriormente en la presente descripción, es decir, basado en un umbral adaptativo. Sin embargo, en este 30 caso se usan un umbral fijo y etapa diferentes. El umbral umbral_tonal se inicializa a 130 y se actualiza en cada trama de la manera siguiente:
if (sum_map_cor > 130) umbral_tonal = umbral_tonal - 1,0 35 else umbral_tonal = umbral_tonal + 1,0 end.
El umbral umbral_tonal adaptativo tiene un límite superior de 140 y un límite inferior de 120. El umbral fijo se ha 40 establecido con respecto al intervalo de frecuencias de 7.000 a 14.000 Hz. Para un intervalo diferente, tendrá que ser ajustado. Como regla general, se puede aplicar la relación siguiente umbral_tonal = NESPEC/2.
La última diferencia con el procedimiento descrito anteriormente en la presente descripción es que no se usa la detección de tonos fuertes en el contenido de banda súper ancha. Esto está motivado por el hecho de que los 45 tonos fuertes no son perceptualmente adecuados para el propósito de codificar la señal tonal en el contenido de banda súper ancha.
La presente invención ha sido descrita en la descripción anterior por medio de una realización ilustrativa, no restrictiva de la misma. El alcance de la presente invención está definido por las reivindicaciones adjuntas. 50

Claims (25)

  1. REIVINDICACIONES
    1. Un procedimiento para estimar una tonalidad de una señal de sonido, en el que el procedimiento comprende:
    5 calcular un espectro residual actual de la señal de sonido; detectar los picos en el espectro residual actual; calcular un mapa de correlación entre el espectro residual actual y un espectro residual previo para cada pico detectado; y calcular un mapa de correlación a largo plazo basado en el mapa de correlación calculado, en el que el
    10 mapa de correlación a largo plazo es indicativo de una tonalidad en la señal de sonido.
  2. 2. Procedimiento según la reivindicación 1, en el que el cálculo del espectro residual actual comprende:
    buscar los mínimos en el espectro de la señal de sonido en una trama actual;
    15 estimar un suelo espectral conectando los mínimos entre sí; y restar el suelo espectral estimado del espectro de la señal de sonido en la trama actual para producir el espectro residual actual.
  3. 3. Procedimiento según la reivindicación 1 o 2, en el que la detección de los picos en el espectro residual actual 20 comprende localizar un máximo entre cada par de dos mínimos consecutivos.
  4. 4. Procedimiento según la reivindicación 1, 2 o 3, en el que el cálculo del mapa de correlación comprende:
    para cada pico detectado en el espectro residual actual, calcular un valor de correlación normalizado con el
    25 espectro residual anterior, sobre los contenedores de frecuencia entre dos mínimos consecutivos en el espectro residual actual que delimitan el pico; y asignar una puntuación a cada pico detectado, en el que la puntuación corresponde al valor de correlación normalizado; y para cada pico detectado, asignar el valor de correlación normalizado del pico sobre los contenedores de
    30 frecuencia entre los dos mínimos consecutivos que delimitan el pico para formar el mapa de correlación.
  5. 5. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el cálculo del mapa de correlación a largo plazo comprende:
    35 filtrar el mapa de correlación a través de un filtro de un polo de contenedor de frecuencias en contenedor de frecuencias; y sumar el mapa de correlación filtrado sobre los contenedores de frecuencia para producir un mapa de correlación sumado a largo plazo.
    40 6. Procedimiento para detectar actividad sonora en una señal de sonido, en el que la señal de sonido es clasificada como una de entre una señal de sonido inactiva y una señal de sonido activa según la actividad sonora detectada en la señal de sonido, en el que el procedimiento comprende:
    estimar un parámetro relacionado con una tonalidad de la señal de sonido usada para distinguir una señal
    45 musical de una señal de ruido de fondo; en el que la estimación del parámetro relacionado con la tonalidad de la señal de sonido previene la actualización de las estimaciones de energía de sonido cuando se detecta una señal musical; en el que la estimación de tonalidad es realizada según una cualquiera de las reivindicaciones 1 a 5.
    50 7. Procedimiento según la reivindicación 6, que comprende además calcular un parámetro no estacionariedad complementaria y un parámetro carácter de ruido con el fin de distinguir una señal musical de una señal de ruido de fondo y evitar la actualización de las estimaciones de energía de ruido en la señal musical.
  6. 8. Procedimiento según la reivindicación 7, en el que el cálculo del parámetro no estacionariedad complementaria
    55 comprende calcular un parámetro similar a un no estacionariedad convencional con restablecimiento de energía a largo plazo cuando se detecta un ataque espectral.
  7. 9. Procedimiento según la reivindicación 8, en el que la detección del ataque espectral y el restablecimiento de la
    energía a largo plazo comprende calcular un parámetro diversidad espectral y en el que el cálculo del parámetro 60 diversidad espectral comprende:
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    calcular una relación entre una energía de la señal de sonido en una trama actual y una energía de la señal de sonido en un trama previa, para las bandas de frecuencia más altas que un número determinado; y calcular la diversidad espectral como una suma ponderada de la relación calculada sobre todas las bandas de frecuencia más altas que el número determinado.
  8. 10.
    Procedimiento según la reivindicación 8 o 9, en el que el cálculo del parámetro carácter de ruido comprende:
    dividir una pluralidad de bandas de frecuencia en un primer grupo de un cierto número de primeras bandas de frecuencia y un segundo grupo de un resto de las bandas de frecuencia; calcular un primer valor de energía para el primer grupo de bandas de frecuencia y un segundo valor de energía del segundo grupo de bandas de frecuencias; calcular una relación entre los valores de energía primero y segundo para producir el parámetro carácter de ruido; y calcular un valor a largo plazo del parámetro carácter ruido en base al parámetro carácter de ruido calculado; en el que la actualización de las estimaciones de energía de ruido se evita si el parámetro carácter de ruido es menor que un umbral fijo determinado.
  9. 11.
    Un procedimiento de clasificación de una señal de sonido con el fin de optimizar la codificación de la señal de sonido usando la clasificación de la señal de sonido, en el que el procedimiento comprende:
    detectar una actividad sonora en la señal de sonido; clasificar la señal de sonido como una de entre una señal de sonido inactivo y una señal de sonido activo según la actividad sonora detectada en la señal de sonido; y en respuesta a la clasificación de la señal de sonido como una señal de sonido activo, clasificar adicionalmente la señal de sonido activo como una de entre una señal de voz sorda y una señal de voz no sorda; en el que la clasificación de la señal de sonido activo como una señal de voz sorda comprende la estimación de una tonalidad de la señal de sonido con el fin de evitar la clasificación de las señales musicales como señales de voz sorda, en el que la estimación de tonalidad es realizada según una cualquiera de las reivindicaciones 1 a 5.
  10. 12.
    Procedimiento según la reivindicación 11, que comprende además codificar la señal de sonido según la clasificación de la señal de sonido, en el que la codificación de la señal de sonido según la clasificación de la señal de sonido comprende codificar la señal de sonido inactivo usando generación de ruido de confort.
  11. 13.
    Procedimiento según la reivindicación 11 o 12, en el que la clasificación de la señal de sonido activo como una señal de voz sorda comprende calcular una regla de decisión en base a al menos una de entre una medida de sonoridad, una medida de inclinación espectral media, un aumento máximo de energía de corto tiempo a bajo nivel, una estabilidad tonal y una energía relativa de trama.
  12. 14.
    Un procedimiento para codificar una banda superior de una señal de sonido usando una clasificación de la señal de sonido, en el que el procedimiento comprende:
    clasificar la señal de sonido como una de entre una señal de sonido tonal y una señal de sonido no tonal; en el que la clasificación de la señal de sonido como una señal tonal comprende estimar una tonalidad de la señal de sonido según una cualquiera de las reivindicaciones 1 a 5.
  13. 15.
    Procedimiento según la reivindicación 14, en el que la estimación de la tonalidad de la señal de sonido según una cualquiera de las reivindicaciones 1 a 5 comprende además el uso de un procedimiento alternativo para calcular un suelo espectral, en el que el uso del procedimiento alternativo para calcular el suelo espectral comprende filtrar un espectro logarítmico de energía de la señal de sonido en una trama actual usando un filtro de media móvil.
  14. 16.
    Procedimiento según la reivindicación 14 o 15, en el que la estimación de la tonalidad de la señal de sonido según una cualquiera de las reivindicaciones 1 a 5 comprende además suavizar el espectro residual por medio de un filtro de media móvil de tiempo corto.
  15. 17.
    Procedimiento según la reivindicación 14 o 16, que comprende además codificar la banda superior de la señal de sonido según la clasificación de dicha señal de sonido.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
  16. 18.
    Procedimiento según cualquiera de las reivindicaciones 14 a 17, en el que la banda superior de la señal de sonido comprende un intervalo de frecuencias por encima de 7 kHz.
  17. 19.
    Un dispositivo para estimar una tonalidad de una señal de sonido, en el que el dispositivo comprende:
    un calculador para calcular un espectro residual actual de la señal de sonido; un detector para detectar los picos en el espectro residual actual; un calculador para calcular un mapa de correlación entre el espectro residual actual y un espectro residual previo para cada pico detectado; y un calculador para calcular un mapa de correlación a largo plazo en base al mapa de correlación calculado, en el que el mapa de correlación a largo plazo es indicativo de una tonalidad en la señal de sonido.
  18. 20.
    Un dispositivo según la reivindicación 19, en el que el calculador del espectro residual actual comprende:
    un localizador de mínimos en el espectro de la señal de sonido en una trama actual; un estimador de un suelo espectral que conecta los mínimos entre sí; y un restador del suelo espectral estimado del espectro para producir el espectro residual actual.
  19. 21.
    Dispositivo según la reivindicación 19 o 20, en el que el calculador del mapa de correlación a largo plazo comprende:
    un filtro para filtrar el mapa de correlación de contenedor de frecuencias en contenedor de frecuencias; y un sumador para sumar el mapa de correlación filtrado sobre los contenedores de frecuencia con el fin de producir un mapa sumado de correlación a largo plazo.
  20. 22.
    Un dispositivo para detectar la actividad sonora en una señal de sonido, en el que la señal de sonido es clasificada como una de entre una señal de sonido inactivo y una señal de sonido activo según la actividad sonora detectada en la señal de sonido, en el que el dispositivo comprende:
    un estimador de tonalidad para la señal de sonido, usado para distinguir una señal musical de una señal de ruido de fondo; en el que el estimador de tonalidad comprende un dispositivo según una cualquiera de las reivindicaciones 19 a 21.
  21. 23.
    Un dispositivo para clasificar una señal de sonido con el fin de optimizar la codificación de la señal de sonido usando la clasificación de la señal de sonido, en el que el dispositivo comprende:
    un detector para detectar una actividad sonora en la señal de sonido; un primer clasificador de señal de sonido para clasificar la señal de sonido como una de entre una señal de sonido inactivo y una señal de sonido activo según la actividad sonora detectada en la señal de sonido; un segundo clasificador de señal de sonido en conexión con el primer clasificador de sonido para clasificar la señal de sonido activo como una de entre una señal de voz sorda y una señal de voz no sorda; en el que el detector de actividad sonora comprende un estimador de tonalidad para estimar una tonalidad de la señal de sonido con el fin de evitar la clasificación de las señales musicales como señales de voz sorda en el que el estimador de tonalidad comprende una dispositivo según una cualquiera de las reivindicaciones 19 a 21.
  22. 24.
    Dispositivo según la reivindicación 23, que comprende además un codificador de sonido para codificar la señal de sonido según la clasificación de la señal de sonido, en el que el codificador de sonido es seleccionado de entre el grupo que consiste en: un codificador de ruido para codificar las señales de sonido inactivas, un codificador optimizado para voz sorda, un codificador optimizado para voz sonora para codificar señales sonoras estables, y un codificador de señal de sonido genérico para codificar señales sonoras de evolución rápida.
  23. 25.
    Un dispositivo para codificar una banda superior de una señal de sonido usando una clasificación de la señal de sonido, en el que el dispositivo comprende:
    un clasificador de señal de sonido para clasificar la señal de sonido como una de entre una señal de sonido tonal y una señal de sonido no tonal; y un codificador de sonido para codificar la banda superior de la señal de sonido clasificada; en el que el clasificador de señal de sonido comprende un dispositivo para estimar una tonalidad de la señal de sonido según una cualquiera de las reivindicaciones 19 a 21.
  24. 26. Dispositivo según la reivindicación 25, que comprende además un filtro de media móvil para calcular un suelo espectral derivado de la señal de sonido, en el que el suelo espectral se usa en la estimación de la tonalidad de la señal de sonido.
    5
  25. 27. Dispositivo según la reivindicación 25 o 26, que comprende además un filtro de media móvil de tiempo corto para suavizar un espectro residual de la señal de sonido, en el que el espectro residual se usa en la estimación de la tonalidad de la señal de sonido.
    10
ES08783143.4T 2007-06-22 2008-06-20 Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido Active ES2533358T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US92933607P 2007-06-22 2007-06-22
US929336P 2007-06-22
PCT/CA2008/001184 WO2009000073A1 (en) 2007-06-22 2008-06-20 Method and device for sound activity detection and sound signal classification

Publications (1)

Publication Number Publication Date
ES2533358T3 true ES2533358T3 (es) 2015-04-09

Family

ID=40185136

Family Applications (1)

Application Number Title Priority Date Filing Date
ES08783143.4T Active ES2533358T3 (es) 2007-06-22 2008-06-20 Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido

Country Status (7)

Country Link
US (1) US8990073B2 (es)
EP (1) EP2162880B1 (es)
JP (1) JP5395066B2 (es)
CA (1) CA2690433C (es)
ES (1) ES2533358T3 (es)
RU (1) RU2441286C2 (es)
WO (1) WO2009000073A1 (es)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
US20110301946A1 (en) * 2009-02-27 2011-12-08 Panasonic Corporation Tone determination device and tone determination method
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
CN102498514B (zh) * 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器
EP2491559B1 (en) 2009-10-19 2014-12-10 Telefonaktiebolaget LM Ericsson (publ) Method and background estimator for voice activity detection
US8892428B2 (en) 2010-01-14 2014-11-18 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude
US9263063B2 (en) * 2010-02-25 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Switching off DTX for music
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
WO2011132368A1 (ja) * 2010-04-19 2011-10-27 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8907929B2 (en) * 2010-06-29 2014-12-09 Qualcomm Incorporated Touchless sensing and gesture recognition using continuous wave ultrasound signals
US20130268265A1 (en) * 2010-07-01 2013-10-10 Gyuhyeok Jeong Method and device for processing audio signal
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8521541B2 (en) * 2010-11-02 2013-08-27 Google Inc. Adaptive audio transcoding
EP3252771B1 (en) * 2010-12-24 2019-05-01 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
EP2743924B1 (en) * 2010-12-24 2019-02-20 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
EP2686846A4 (en) * 2011-03-18 2015-04-22 Nokia Corp DEVICE FOR AUDIO SIGNAL PROCESSING
WO2012153165A1 (en) * 2011-05-06 2012-11-15 Nokia Corporation A pitch estimator
US8990074B2 (en) 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US8527264B2 (en) * 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
US9099098B2 (en) 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
TWI626645B (zh) * 2012-03-21 2018-06-11 南韓商三星電子股份有限公司 編碼音訊信號的裝置
EP2828854B1 (en) * 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
HUE033069T2 (hu) 2012-03-29 2017-11-28 ERICSSON TELEFON AB L M (publ) Harmonikus hangjelek átalakítási kódolása/dekódolása
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
CN104603874B (zh) 2012-08-31 2017-07-04 瑞典爱立信有限公司 用于语音活动性检测的方法和设备
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
EP3933836A1 (en) * 2012-11-13 2022-01-05 Samsung Electronics Co., Ltd. Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
WO2014096280A1 (en) * 2012-12-21 2014-06-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise addition for modeling background noise at low bit-rates
CA2915437C (en) 2013-06-21 2017-11-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CN104301064B (zh) 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN106409310B (zh) * 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9769550B2 (en) 2013-11-06 2017-09-19 Nvidia Corporation Efficient digital microphone receiver process and system
US9454975B2 (en) * 2013-11-07 2016-09-27 Nvidia Corporation Voice trigger
JP2015099266A (ja) * 2013-11-19 2015-05-28 ソニー株式会社 信号処理装置、信号処理方法およびプログラム
PT3438979T (pt) * 2013-12-19 2020-07-28 Ericsson Telefon Ab L M Estimativa de ruído de fundo em sinais de áudio
US9899039B2 (en) 2014-01-24 2018-02-20 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9934793B2 (en) 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9916844B2 (en) * 2014-01-28 2018-03-13 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
WO2015151451A1 (ja) 2014-03-31 2015-10-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、復号方法、およびプログラム
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
DK3379535T3 (da) * 2014-05-08 2019-12-16 Ericsson Telefon Ab L M Audiosignalklassifikator
CN105225666B (zh) 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
ES2758517T3 (es) 2014-07-29 2020-05-05 Ericsson Telefon Ab L M Estimación del ruido de fondo en las señales de audio
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
US10163453B2 (en) * 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US9401158B1 (en) * 2015-09-14 2016-07-26 Knowles Electronics, Llc Microphone signal fusion
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN106910494B (zh) 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN109360585A (zh) * 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
KR20200133525A (ko) 2019-05-20 2020-11-30 삼성전자주식회사 생체 정보 추정 모델의 유효성 판단 장치 및 방법
CN112908352B (zh) * 2021-03-01 2024-04-16 百果园技术(新加坡)有限公司 一种音频去噪方法、装置、电子设备及存储介质
US11545159B1 (en) 2021-06-10 2023-01-03 Nice Ltd. Computerized monitoring of digital audio signals
CN116935900A (zh) * 2022-03-29 2023-10-24 哈曼国际工业有限公司 语音检测方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5040217A (en) 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
JPH05335967A (ja) * 1992-05-29 1993-12-17 Takeo Miyazawa 音情報圧縮方法及び音情報再生装置
ES2141824T3 (es) * 1993-03-25 2000-04-01 British Telecomm Reconocimiento de voz con deteccion de pausas.
JP3321933B2 (ja) * 1993-10-19 2002-09-09 ソニー株式会社 ピッチ検出方法
JPH07334190A (ja) * 1994-06-14 1995-12-22 Matsushita Electric Ind Co Ltd 高調波振幅値量子化装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JP3064947B2 (ja) * 1997-03-26 2000-07-12 日本電気株式会社 音声・楽音符号化及び復号化装置
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6160199A (en) 1998-12-21 2000-12-12 The Procter & Gamble Company Absorbent articles comprising biodegradable PHA copolymers
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
JP2002169579A (ja) * 2000-12-01 2002-06-14 Takayuki Arai オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
DE10109648C2 (de) 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
EP1280138A1 (de) * 2001-07-24 2003-01-29 Empire Interactive Europe Ltd. Verfahren zur Analyse von Audiosignalen
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
FR2850781B1 (fr) * 2003-01-30 2005-05-06 Jean Luc Crebouw Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
ATE429698T1 (de) * 2004-09-17 2009-05-15 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten tonsignalen
EP1808684B1 (en) * 2004-11-05 2014-07-30 Panasonic Intellectual Property Corporation of America Scalable decoding apparatus
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
JP2007025290A (ja) 2005-07-15 2007-02-01 Matsushita Electric Ind Co Ltd マルチチャンネル音響コーデックにおける残響を制御する装置
KR101116363B1 (ko) * 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
JP4736632B2 (ja) * 2005-08-31 2011-07-27 株式会社国際電気通信基礎技術研究所 ボーカル・フライ検出装置及びコンピュータプログラム
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
KR100986957B1 (ko) * 2005-12-05 2010-10-12 퀄컴 인코포레이티드 토널 컴포넌트들을 감지하는 시스템들, 방법들, 및 장치들
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
SG136836A1 (en) * 2006-04-28 2007-11-29 St Microelectronics Asia Adaptive rate control algorithm for low complexity aac encoding
JP4236675B2 (ja) * 2006-07-28 2009-03-11 富士通株式会社 音声符号変換方法および装置
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands

Also Published As

Publication number Publication date
CA2690433C (en) 2016-01-19
EP2162880A1 (en) 2010-03-17
US20110035213A1 (en) 2011-02-10
EP2162880A4 (en) 2013-12-25
CA2690433A1 (en) 2008-12-31
JP2010530989A (ja) 2010-09-16
RU2441286C2 (ru) 2012-01-27
RU2010101881A (ru) 2011-07-27
EP2162880B1 (en) 2014-12-24
WO2009000073A8 (en) 2009-03-26
JP5395066B2 (ja) 2014-01-22
US8990073B2 (en) 2015-03-24
WO2009000073A1 (en) 2008-12-31

Similar Documents

Publication Publication Date Title
ES2533358T3 (es) Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido
US8244525B2 (en) Signal encoding a frame in a communication system
US7203638B2 (en) Method for interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
US7657427B2 (en) Methods and devices for source controlled variable bit-rate wideband speech coding
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
US8095362B2 (en) Method and system for reducing effects of noise producing artifacts in a speech signal
JPH09503874A (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
EP1312075B1 (en) Method for noise robust classification in speech coding
US20020156619A1 (en) Audio coding
JP5291004B2 (ja) 通信ネットワークにおける方法及び装置
JP3404350B2 (ja) 音声符号化パラメータ取得方法、音声復号方法及び装置
KR20170132854A (ko) 오디오 인코더 및 오디오 신호를 인코딩하는 방법
Jelinek et al. On the architecture of the cdma2000/spl reg/variable-rate multimode wideband (VMR-WB) speech coding standard
EP1808852A1 (en) Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
Farsi et al. A novel method to modify VAD used in ITU-T G. 729B for low SNRs