ES2678415T3 - Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica - Google Patents

Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica Download PDF

Info

Publication number
ES2678415T3
ES2678415T3 ES08017124.2T ES08017124T ES2678415T3 ES 2678415 T3 ES2678415 T3 ES 2678415T3 ES 08017124 T ES08017124 T ES 08017124T ES 2678415 T3 ES2678415 T3 ES 2678415T3
Authority
ES
Spain
Prior art keywords
spectral
characteristic
frequency band
band
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08017124.2T
Other languages
English (en)
Inventor
Christian Uhle
Oliver Hellmuth
Bernhard Grill
Falko Ridderbusch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2678415T3 publication Critical patent/ES2678415T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

Aparato para el procesamiento de una señal de audio para obtener información de control por subbanda para un filtro de mejora de habla, que comprende: un extractor de características para la obtención de una secuencia de tiempo de representaciones espectrales de tiempo corto de la señal de audio y para la extracción de al menos una primera característica en cada banda de frecuencia de una pluralidad de bandas de frecuencia para una pluralidad de representaciones espectrales de tiempo corto, representando al menos una primera característica una forma espectral de una representación espectral de tiempo corto en una banda de frecuencia de la pluralidad de bandas de frecuencia, en el que el extractor de características es operativo para extraer características secundarias adicionales que representan una característica de una representación espectral de corto tiempo por banda de frecuencia que es al menos una energía espectral, un flujo espectral entre marcos sucesivos y características delta o delta-delta y en el que el extractor de características es operativo para extraer adicionalmente características terceras para el ancho de banda completo que es al menos una de las características de LPC, incluyendo las características de LPC una señal de error de LPC, coeficientes de predicción lineal hasta un orden predefinido o una combinación de las señales de error de LPC y coeficientes de predicción lineal, coeficientes PLP, coeficientes RASTA-PLP, coeficientes cepstral de frecuencia Mel y características delta; y un combinador de características para la combinación de al menos una primera característica, al menos una segunda característica y al menos una tercera característica mediante el uso de parámetros de combinación para obtener la información de control para el filtro de mejora de habla para una porción de tiempo de la señal de audio, en el que el combinador de características es operativo para combinar al menos una primera característica para cada banda de frecuencia que representa una forma espectral, al menos una segunda característica adicional por banda de frecuencia y al menos una tercera característica adicional para el ancho de banda completo mediante el uso de los parámetros de combinación.

Description

DESCRIPCIÓN
Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica 5
CAMPO DE LA INVENCIÓN
[0001] La presente invención se refiere al campo de procesamiento de señales de audio y, particularmente, al campo de mejora de habla de señales de audio, de tal manera que la señal procesada tenga contenido de habla,
10 que tiene una inteligibilidad de habla objetiva o subjetiva mejorada.
ANTECEDENTES DE LA INVENCIÓN Y TÉCNICA ANTERIOR
[0002] La mejora de habla se emplea en diferentes aplicaciones. Una aplicación prominente es el uso de 15 procesamiento de señales digitales en aparatos de corrección auditiva o prótesis auditivas. El procesamiento de
señal digital en las prótesis auditivas ofrece nuevos medios efectivos para la rehabilitación del deterioro de audición. Aparte de calidad de señal acústica superior, las prótesis auditivas digitales permiten la implementación de estrategias de procesamiento de habla específicas. Para muchas de estas estrategias, es conveniente un estimado de la proporción de habla-a-interferencia (SNR = speech-to-noise) del ambiente acústico. Específicamente, se 20 consideran aplicaciones en las que algoritmos complejos para procesamiento de habla se optimizan para ambientes acústicos específicos, pero estos algoritmos pueden fallar en situaciones que no cumplen con las consideraciones específicas. Esto es cierto especialmente para esquemas de reducción de ruido que pueden introducir artefactos de procesamiento en ambientes silenciosos o en situaciones en las que la SNR es inferior a un cierto umbral. Una selección óptima de parámetros de algoritmos de compresión y amplificación puede depender de la proporción de 25 habla-a-interferencia, de tal manera que una adaptación del ajuste de parámetros dependiendo de estimados SNR, ayuda a proporcionar el beneficio. Además, los estimados de sNr pueden emplearse directamente como parámetros de control para esquemas de reducción de ruido, tales como filtrado Wiener o substracción espectral.
[0003] Otras aplicaciones se dan en el campo de mejora de habla del sonido de una película. Se ha 30 encontrado que muchas personas tienen problemas en comprender el contenido de habla de una película, por
ejemplo debido a incapacidades o deterioros auditivos. Para seguir la trama de una película, es importante comprender el habla relevante de la pista de audio, por ejemplo monólogos, diálogos, anuncios y narraciones. La gente que tiene dificultad en oír a menudo experimenta esos sonidos de fondo, por ejemplo ruido ambiental y música que están presentes a un nivel muy alto respecto al habla. En este caso, se desea incrementar el nivel de las 35 señales de habla y atenuar los sonidos de fondo o en general, incrementar el nivel de la señal de habla con respecto al nivel total.
[0004] Una estrategia prominente a la mejora de habla es la ponderación espectral, también referida como atenuación espectral a corto plazo, como se ilustra en la Figura 3. La señal de salida y[k] se calcula al atenuar las
40 señales de sub-banda X(w) de las señales de alimentación x[k] dependiendo de la energía de ruido dentro de las señales de sub-banda.
[0005] A continuación, la señal de alimentación x[k] se considera que es una mezcla aditiva de la señal de habla deseada s[k] y el ruido de fondo b[k].
45
x[k ] = s[k ] + b[k ] (1)
[0006] Mejora de habla es la mejora en la inteligibilidad objetivo y/o calidad subjetiva del habla.
50 [0007] Una representación de dominio de frecuencia de la señal de alimentación se calcula mediante una
Transformada Fourier de Corto Plazo (STFT = Short-term Fourier Transform), otras transformadas de frecuencia- tiempo o un banco de filtros como se indica en 30. La señal de alimentación se filtra a continuación en el dominio de frecuencia según la Ecuación 2, mientras que la respuesta de frecuencia G(w) del filtro, se calcula de tal manera
que se reduce la energía del ruido. La señal de salida se calcula mediante procesamiento inverso de las 55 transformadas del tiempo-frecuencia o banco de filtros, respectivamente.
Y (w) = G(w) X (w) (2)
[0008] Pesos espectrales apropiados G(w) se calculan en 31 para cada valor espectral mediante el uso del
espectro de señal de alimentación X(w) y un estimado del espectro de ruido B(w) o de forma equivalente,
mediante el uso de un estimado de la SNR de sub-banda lineal R (w)=S (w)/B (w). El valor espectral ponderado
5 se transforma de nuevo al dominio de tiempo en 32. Ejemplos prominentes de reglas de supresión de ruido son substracción espectral [S. Boll, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp. 113-120, 1979] y filtrado Wiener. Considerando que la señal de alimentación es una mezcla aditiva de las señales de habla y de ruido y que el habla y ruido no están correlacionados, el valor de ganancia para el procedimiento de substracción espectral se da en la Ecuación 3.
10
G(w)
B (w)
\x (w):
2
1
(3)
[0009] Pesos similares se derivan de estimados de la SNR de sub-banda lineal R(w) según la Ecuación 4.
Canal
15
G(w)
R (w) \R (w)+1
(4)
[0010] Diversas extensiones a la substracción espectral se han propuesto en el pasado, es decir el uso de un factor de sobre-substracción y parámetro de piso espectral [M. Berouti, R. Schwartz, J. Makhoul, "Enhancement of
20 speech corrupted by acoustic noise", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, 1979], formas generalizadas [J. Lim, A. Oppenheim, "Enhancement and bandwidth compression of noisy speech", Proc. of the IEEE, vol 67, no. 12, pp. 1586-1604, 1979], el uso de criterios perceptuales (por ejemplo, N. Virag, "Single channel speech enhancement based on masking properties of the human auditory system", IEEE Trans. Speech and Audio Proc., vol. 7, no. 2, pp. 126-137, 1999) y substracción espectral de múltiples bandas (por 25 ejemplo S. Kamath, P. Loizou, "A multi-band spectral subtraction method for enhancing speech corrupted by colored noise", Proc. of the IEEE Int. Conf. Acoust. Speech Signal Processing, 2002). Sin embargo, la parte crucial de un procedimiento de ponderación espectral es el estimado del espectro de ruido instantáneo o de la SNR de sub-banda, que es tendiente a errores, especialmente si el ruido no es estacionario. Errores de estimación de ruido llevan a ruido residual, distorsiones de los componentes de habla o ruido musical (un artefacto que se ha descrito como 30 "modulado en frecuencia con calidad tonal" [P. Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007]).
[0011] Una estrategia simple a estimación de ruido es medir y promediar el espectro de ruido durante pausas de habla. Esta estrategia no produce resultados satisfactorios si el espectro de ruido varía con el tiempo durante
35 actividad de habla y si la detección de las pausas del habla falla. Procedimientos para estimar el espectro de ruido incluso durante la actividad de habla se han propuesto en el pasado y pueden clasificarse según P. Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007 como
• Algoritmos de seguimiento mínimo
40 • Algoritmos de promedio recursivo en tiempo
• Algoritmos basados en histograma
[0012] La estimación del espectro de ruido mediante el uso de estadísticas mínimas se ha propuesto por R. Martin, "Spectral subtraction based on minimum statistics", Proc. of EUSIPCO, Edingburgh, Uk, 1994. El
45 procedimiento se basa en los seguimientos de mínimos locales de la energía de señal en cada sub-banda. Una regla de actualización no lineal para el estimado de ruido y más rápida actualización se ha propuesto por G. Doblinger, "Computationally Efficient Speech Enhancement By Spectral Minima Tracking In Subbands", Proc. of Eurospeech, Madrid, Spain, 1995.
[0013] Algoritmos de promedio recursivos en tiempo estiman y actualizan el espectro de ruido cada vez que
la SNR estimada en una banda de frecuencia particular es muy baja. Esto se realiza al calcular de forma recursiva el promedio ponderado del estimado de ruido pasado y el espectro presente. Los pesos se determinan como una función de la probabilidad de que el habla está presente o como una función del SNR estimada en la banda de 5 frecuencia particular, por ejemplo por I. Cohen, "Noise estimation by minima controlled recursive averaging for robust speech enhancement", IEEE Signal Proc. Letters, vol. 9, no. 1, pp. 12-15, 2002, y por L. Lin, W. Holmes, E. Ambikairajah, "Adaptive noise estimation algorithm for speech enhancement", Electronic Letters, vol. 39, no. 9, pp. 754-755, 2003.
10 [0014] Procedimientos basados en histograma se basan en la consideración de que el histograma de la
energía de sub-banda a menudo es bimodal. Un modo de baja energía grande acumula valores de energía de segmentos sin habla o con segmentos de baja energía de habla. El modo de alta energía acumula valores de energía de segmentos de habla con voz y ruido. La energía de ruido en una sub-banda particular se determina a partir del modo de baja energía [H. Hirsch, C. Ehrlicher, "Noise estimation techniques for robust speech recognition", 15 Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Detroit, USA, 1995]. Para una revisión creciente extensa se refiere a P. Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007.
[0015] Procedimientos para estimar SNR de sub-banda con base en aprendizaje supervisado mediante el
uso de características de modulación de amplitud, se reportan por J. Tchorz, B. Kollmeier, "SNR Estimation based 20 on amplitude modulation analysis with applications to noise suppression", IEEE Trans. On Speech and Audio Processing, vol. 11, no. 3, pp. 184-192, 2003, y en M. Kleinschmidt, V. Hohmann, "Sub-band SnR estimation using auditory feature processing", Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol. 39, pp. 47-64, 2003.
25 [0016] Otras estrategias para mejora de habla son el filtrado síncrono de agudos (por ejemplo en R. Frazier,
S. Samsam, L. Braida, A. Oppenheim, "Enhancement of speech by adaptive filtering", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 1976), el filtrado de Modulación de Espectro Temporal (STM = Spectro Temporal Modulation) (por ejemplo por N. Mesgarani, S. Shamma, "Speech enhancement based on filtering the spectro-temporal modulations", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal 30 Processing, ICASSP, Philadelphia, USA, 2005), y el filtrado basado en una representación de modelo sinusoidal de la señal de alimentación (por ejemplo J. Jensen, J. Hansen, "Speech enhancement using a constrained iterative sinusoidal model", IEEE Trans. on Speech and Audio Processing, vol. 9, no. 7, pp. 731-740, 2001).
[0017] Los procedimientos para estimado de la SNR de sub-banda con base en aprendizaje supervisado 35 mediante el uso de características de modulación de amplitud como se notifica en J. Tchorz, B. Kollmeier, "SNR
Estimation based on amplitude modulation analysis with applications to noise suppression", IEEE Trans. On Speech and Audio Processing, vol. 11, no. 3, pp. 184-192, 2003, y por M. Kleinschmidt, V. Hohmann, "Sub-band SNR estimation using auditory feature processing", Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol. 39, pp. 47-64, 200312, 13 son desventajosos ya que se requieren dos etapas de procesamiento 40 espectrograma. La primera etapa de procesamiento espectrograma es para generar un espectrograma de tiempo/frecuencia de la señal de audio en dominio de tiempo. A continuación, para generar el espectrograma de modulación, se requiere otra transformada de "tiempo/frecuencia", que transforma la información espectral del dominio espectral en el dominio de modulación. Debido al retraso sistemático inherente y al aspecto de resolución de tiempo/frecuencia inherente a cualquier algoritmo de transformación, esta operación de transformación adicional 45 incurre en problemas.
[0018] Una consecuencia adicional de este procedimiento es que los estimados de ruido son bastante imprecisos en condiciones en las que el ruido no es estacionario y en las que pueden ocurrir diversas señales de ruido.
50
[0019] La publicación "A Comparison of Composite Feature Under Degraded Speech in Speaker Recognition", J.P. Openshaw et al., proceedings of the International Conference on Acoustics, Speech, and Signal Processing, New York, IEEE, April 27, 1993, pages 371-374 describe una variedad de características y su sensibilidad a los desajustes de ruido entre el modelo y las condiciones de ruido de prueba. La identificación del
55 orador se utiliza para una evaluación del rendimiento, dado que es muy sensible a cambios de característica. Se consideran las características primarias MFCC y PLP, junto con su RASTA y las extensiones de regresión de primer orden.
[0020] La publicación "Sub-band SNR Estimation using Auditory Feature Processing", Michael Kleinschmidt
et al., Speech Communication, vol. 39, No. 1-2, January 1, 2003, pages 47-63, XP055077312 describe un concepto para la estimación de habla a largo plazo a índice de ruido (SNR) en bandas de frecuencia individual que se basa en procedimientos conocidos a partir del reconocimiento de habla automático (ASR). Un modelo de percepción auditiva se utiliza como parte delantera. Además, las celdas sigma-pi motivadas fisiológicamente y de forma psicoacústica se 5 utilizan como características secundarias y una red neural lineal o no-lineal se utiliza como clasificador. La estrategia está basada puramente en modulaciones espectro-temporales lentas. Con este fin, se genera una representación espectro-temporal, que se basa en un modelo de percepción. Se calcula un espectrograma de modulación, valores de media de energía de 10 ms se derivan de un banco de filtro de tono gamma como una extracción de característica de referencia. Las celdas sigma-pi se utilizan como características secundarias basadas en 10 espectrogramas de banda fundamentales para el reconocimiento de palabra aislado.
[0021] Es un objetivo de la presente invención proporcionar un concepto mejorado para mejora de habla.
[0022] Este objetivo se logra por un aparato para procesar una señal de audio según la reivindicación 1, un 15 procedimiento de procesamiento de una señal de audio según la reivindicación 9, un aparato para mejora de habla
de una señal de audio según la reivindicación 10, un procedimiento de mejora de habla según la reivindicación 12, un aparato para entrenar un combinador de característica según la reivindicación 13, un procedimiento de formación de un combinador de característica según la reivindicación 14 o un programa informático según la reivindicación 15.
20 [0023] Según un primer aspecto, este objetivo se consigue por medio de un aparato para el procesamiento
de una señal de audio para obtener información de control por sub-banda para un filtro de mejora de habla según la reivindicación 1. Según un segundo aspecto, este objetivo se consigue por medio de un procedimiento de procesamiento de una señal de audio para obtener información de control por sub-banda para un filtro de mejora de habla según la reivindicación 9. Según un tercer aspecto, este objetivo se consigue por un aparato para la mejora de 25 habla en una señal de audio según la reivindicación 10. Según un cuarto aspecto, este objetivo se consigue por un procedimiento de mejora de habla en una señal de audio según la reivindicación 12. Según un quinto aspecto, este objetivo se consigue por medio de un aparato para entrenar un combinador de característica para la determinación de parámetros de combinación del combinador de característica según la reivindicación 13. Según un sexto aspecto, este objetivo se consigue por un procedimiento de formación de un combinador de característica para la 30 determinación de parámetros de combinación del combinador de característica según la reivindicación 14. Según un séptimo aspecto, este objetivo se consigue por medio de un programa informático para llevar a cabo, cuando se ejecuta en un equipo, cualquiera de los procedimientos inventivos.
[0024] La presente invención se basa en el hallazgo de que una información a modo de banda en la forma 35 espectral de la señal de audio dentro de la banda específica, es un parámetro muy útil para determinar información
de control para un filtro de mejora de habla. Específicamente, una característica de información de forma espectral determinada a modo de banda para una pluralidad de bandas y para una pluralidad de representaciones espectrales de corto-tiempo subsecuentes, proporciona una descripción característica útil de una señal de audio para procesamiento de mejora de habla de la señal de audio. Específicamente, un conjunto de características de forma 40 espectral, en donde cada característica de forma espectral se asocia con una banda de una pluralidad de bandas espectrales, tales como bandas Bark, o en general, bandas que tienen un ancho de banda variable sobre el intervalo de frecuencia, ya proporciona una característica útil establecida para determinar proporciones de señal/interferencia o ruido para cada banda. Para este objetivo, las características de forma espectral para una pluralidad de bandas se procesan por un combinador de características para combinar estas características mediante el uso de parámetros 45 de combinación para obtener la información de control para el filtro de mejora de habla para una porción de tiempo de la señal de audio para cada banda. De preferencia, el combinador de características incluye una red neural, que se controla por muchos parámetros de combinación, en donde estos parámetros de combinación se determinan en una fase de entrenamiento, que se realiza antes de efectuar actualmente el filtrado con mejora de habla. Específicamente, la red neural realiza un procedimiento de regresión de red neural. Una ventaja específica es que 50 los parámetros de combinación pueden determinarse dentro de una fase de entrenamiento utilizando material de audio, que puede ser diferente del material de audio mejorado en habla actual, de tal manera que la fase de entrenamiento tiene que realizarse solo una sola vez, y después de esta fase de entrenamiento, los parámetros de combinación se ajustan de manera fija y pueden aplicarse a cada señal de audio desconocida que tiene habla, que es comparable con una característica de habla de la señal de entrenamiento. Esta característica de habla por 55 ejemplo, puede ser un lenguaje o un grupo de lenguajes, tales como lenguajes europeos contra lenguajes asiáticos, etc.
[0025] De preferencia, el concepto inventivo estima el ruido al aprender las características del habla mediante el uso de extracción de características y redes neurales, en donde las características extraídas de la invención son
características espectrales de bajo nivel directas, que pueden ser extraídas de una forma eficiente y fácil y de manera importante, pueden ser extraídas sin un retardo inherente de sistema grande, de tal manera que el concepto inventivo es específicamente útil para proporcionar un estimado de ruido preciso o SNR, incluso en una situación en donde el ruido no es estacionario y en donde ocurren diversas señales de ruido.
5
BREVE DESCRIPCIÓN DE LOS DIBUJOS
[0026] Realizaciones preferidas de la presente invención se discuten posteriormente con más detalle en referencia a los dibujos anexos en los que:
10
La Figura 1 es un diagrama de bloques de un aparato o procedimiento preferido para procesar una señal de audio;
La Figura 2 es un diagrama de bloques de un aparato o procedimiento para entrenar un combinador de características según una realización preferida de la presente invención;
La Figura 3 es un diagrama de bloques para ilustrar un aparato y procedimiento para mejora de habla según una 15 realización preferida de la presente invención;
La Figura 4 ilustra una vista general o panorama del procedimiento para entrenar un combinador de características y para aplicar una regresión de red neural mediante el uso de los parámetros de combinación optimizados;
La Figura 5 es un trazo que ilustra el factor de ganancia como una función del SNR, en donde las ganancias aplicadas (línea sólida) se comparan con las ganancias de substracción espectral (línea punteada) y el filtro Wiener 20 (línea con rayas);
La Figura 6 es una visión general sobre las características por banda de frecuencia y características adicionales preferidas para todo el ancho de banda;
La Figura 7 es un diagrama de flujo para ilustrar una implementación preferida del extractor de características;
La Figura 8 ilustra un diagrama de flujo para ilustrar una implementación preferida del cálculo de los factores de 25 ganancia por valor de frecuencia y el cálculo subsecuente de la porción de señal de audio mejorado en habla;
La Figura 9 ilustra un ejemplo de la ponderación espectral, en donde la señal de alimentación en tiempo, la SNR de sub-banda estimada, la SNR estimada en depósitos de frecuencia después de interpolación, los pesos espectrales y la señal de tiempo procesada, se ilustran; y
La Figura 10 es un diagrama de bloques esquemático de una implementación preferida del combinador de 30 características mediante el uso de una red neural de múltiples capas.
DESCRIPCIÓN DETALLADA DE REALIZACIONES PREFERIDAS
[0027] La Figura 1 ilustra un aparato preferido para procesar una señal de audio 10 para obtener información 35 de control 11 para un filtro de mejora de habla 12. El filtro de mejora de habla puede implementarse de muchas
formas, tales como un filtro controlable para filtrar la señal de audio 10, mediante el uso de la información de control por banda de frecuencia para cada una de la pluralidad de bandas de frecuencia, para obtener una señal de salida de audio mejorada de habla 13. Como se ilustra posteriormente, el filtro controlable también puede ser implementado como una conversión de tiempo/frecuencia, en donde factores de ganancia individualmente 40 calculados se aplican a los valores espectrales o bandas espectrales, seguido por una conversión de frecuencia/tiempo subsecuentemente realizada.
[0028] El aparato de la Figura 1 comprende un extractor de características 14 para obtener una secuencia de tiempo de representaciones espectrales de corto-tiempo de la señal de audio y para extraer al menos una
45 característica en cada banda de frecuencia de una pluralidad de bandas de frecuencia para una pluralidad de representaciones espectrales de corto-tiempo, en donde al menos una característica representa una forma espectral de una representación espectral de corto-tiempo en una banda de frecuencia de la pluralidad de bandas de frecuencia. Adicionalmente, el extractor de características 14 puede implementarse para extraer otras características aparte de las características de forma espectral. A la salida del extractor de características 14 existen varias 50 características por espectro de corto-tiempo de audio en donde estas varias características al menos incluyen una característica de forma espectral para cada banda de frecuencia de una pluralidad de al menos 10 o de preferencia más, tales como 20 a 30 bandas de frecuencia. Estas características pueden emplearse como están, o pueden procesarse mediante el uso de un procesamiento promedio o cualquier otro procesamiento, tal como promedio geométrico o promedio aritmético o procesamiento de mediana u otro procesamiento de momentos estadísticos 55 (tales como variancia, asimetría...) para obtener, por cada banda, una característica en bruto de una característica promediada, de tal manera que todas estas características en bruto y/o promediadas se alimentan a un combinador de características 15. El combinador de características 15 combina la pluralidad de características de forma espectral y de preferencia, características adicionales mediante el uso de parámetros de combinación, que pueden proporcionarse mediante una alimentación de parámetros de combinación 16, o que puede ser programado fijo
dentro del combinador de características 15, de tal manera que no se requiera la alimentación de parámetro de combinación 16. A la salida del combinador de características, la información de control para el filtro de mejora de habla para cada banda de frecuencia o "sub-banda" de la pluralidad de bandas de frecuencia o la pluralidad de subbandas, se obtiene por una porción de tiempo de la señal de audio.
5
[0029] De preferencia, el combinador de características 15 se implementa como un circuito de regresión de
red neural, pero el combinador de características también puede implementarse como cualquier otro combinador de características controlado de forma estadística o numérica, que aplica cualquier operación de combinación a la salida de características por el extractor de características 14, de tal manera que en el extremo, la información de 10 control requerida, tal que resulta un valor SNR a modo de banda o un factor de ganancia a modo de banda. En la realización preferida de una aplicación de red neural, se requiere una fase de entrenamiento ("fase de entrenamiento" significa una fase en la que se realiza aprendizaje de los ejemplos). En esta fase de entrenamiento, se utiliza un aparato para entrenar un combinador de características 15 como se indica en la Figura 2. Específicamente, la Figura 2 ilustra este aparato para entrenar un combinador de características 15, para determinar 15 parámetros de combinación del combinador de características. Para este fin, el aparato en la Figura 2 comprende el extractor de características 14, que de preferencia se implementa en la misma forma que el extractor de características 14 de la Figura 1. Además, el combinador de características 15 también se implementa de la misma forma que el combinador de características 15 de la Figura 1.
20 [0030] Además de la Figura 1, el aparato en la Figura 2 comprende un controlador de optimización 20, que
recibe como una alimentación, información de control para una señal de audio de entrenamiento como se indica en 21. La fase de entrenamiento se realiza con base en señales de audio de entrenamiento conocidas, que tienen una proporción de habla/ruido o interferencia conocida en cada banda. La porción de habla y la porción de ruido son - por ejemplo - suministradas por separado entre sí y la SNR actual por banda se miden al vuelo, es decir durante la 25 operación de aprendizaje. Específicamente, el controlador de optimización 20 es operativo para controlar el combinador de características, de tal manera que el combinador de características se alimenta con las características del extractor de características 14. Con base en estas características y parámetros de combinación intermedios que vienen de una corrida de iteración anterior, el combinador de características 15 calcula entonces información de control 11. Esta información de control 11 se envía al controlador de optimización y en el controlador 30 de optimización 20 se compara con la información de control 21 para la señal de audio de entrenamiento. Los parámetros de combinación intermedios se varían en respuesta a una instrucción del controlador de optimización 20 y mediante el uso de estos parámetros de combinación variados, se calcula un conjunto adicional de información de control por el combinador de características 15. Cuando la información de control adicional coincide mejor con la información de control para la señal de audio de entrenamiento 21, el controlador de optimización 20 actualiza los 35 parámetros de combinación y envía estos parámetros de combinación actualizados 16 al combinador de características que se van a utilizar en la siguiente corrida como parámetros de combinación intermedios. De forma alternativa, o adicionalmente, los parámetros de combinación actualizados pueden ser almacenados en una memoria para uso adicional.
40 [0031] La Figura 4 ilustra una vista general o panorama de un procesamiento de ponderación espectral
mediante el uso de la extracción de características en el procedimiento de regresión de red neural. Los parámetros w de la red neural se calculan mediante el uso de los valores SNR de sub-banda de referencia Rt y características de los ítems de entrenamiento xt[k] durante la fase de entrenamiento, que se indica en el lado a mano izquierda de la Figura 4. El estimado de ruido y el filtrado de mejora de habla se muestran en el lado a mano derecha de la Figura 4. 45
[0032] El concepto propuesto sigue la estrategia de ponderación espectral y utiliza un procedimiento novedoso para el cálculo de los pesos o ponderaciones espectrales. El estimado de ruido o interferencia se basa en un procedimiento de aprendizaje supervisado y utiliza un conjunto de características de la invención. Las características se dirigen a la discriminación de componentes de señal tonal contra ruidosos. Adicionalmente, las
50 características propuestas toman en cuenta la evolución de propiedades de señal en una escala de tiempo más grande.
[0033] El procedimiento de estimación de ruido presentado aquí es capaz de tratar con una variedad de sonidos de fondo no estacionarios. Una estimación SNR robusta en ruido de fondo no estacionario se obtiene
55 mediante extracción de características y un procedimiento de regresión de red neural como se ilustra en la Figura 4. Los pesos de valor real se calculan a partir de estimados de SNR en las bandas de frecuencia cuyo espaciamiento se aproxima a la escala Bark. La resolución espectral de la estimación SNR más bien es gruesa o tosca para permitir la medición de una forma espectral en una banda.
[0034] El lado izquierdo de la Figura 4 corresponde a una fase de entrenamiento que, básicamente tiene que realizarse solo una vez. El procedimiento en el lado a mano izquierda de la Figura 4 indicado como entrenamiento 41, incluye un bloque de cómputo SNR de referencia 21, que genera la información de control 21 para una alimentación de señal de audio de entrenamiento en el controlador de optimización 20 de la Figura 2. El dispositivo
5 de extracción de características 14 en la Figura 4 en el lado de entrenamiento corresponde al extractor de características 14 de la Figura 2. En particular, la Figura 2 se ha ilustrado para recibir una señal de audio de entrenamiento, que consiste en una porción de habla y una porción de fondo. A fin de poder realizar una referencia útil, la porción de fondo bt y la porción de habla st están disponibles por separado entre sí y se agregan mediante un sumador 43 antes de alimentarse al dispositivo de extracción de características 14. De esta manera, la salida del 10 sumador 43 corresponde a la alimentación de la señal de audio de entrenamiento en el extractor de características 14 en la Figura 2.
[0035] El dispositivo de entrenamiento de red neural indicado en 15, 20 corresponde a los bloques 15 y 20 y la conexión correspondiente como se indica en la Figura 2 o como se implementa mediante otras conexiones
15 similares, resulta en un conjunto de parámetros de combinación W, que puede almacenarse en la memoria 40. Estos parámetros de combinación se emplean a continuación en el dispositivo de regresión de red neural 15 que corresponden al combinador de características 15 de la Figura 1 cuando se aplica el concepto inventivo como se indica por la aplicación 42 en la Figura 4. El dispositivo de ponderación espectral en la Figura 4 corresponde al filtro controlable 12 de la Figura 1 y el extractor de características 14 en la Figura 4, el lado a mano derecha corresponde 20 al extractor de características 14 en la Figura 1.
[0036] A continuación se discutirá en detalle una breve realización del concepto propuesto. El dispositivo de extracción de características 14 en la Figura 4 opera del siguiente modo.
25 [0037] Un conjunto de 21 características diferentes se ha investigado a fin de identificar el mejor conjunto de
características para el estimado de la sub-banda SNR. Estas características se combinaron en diversas configuraciones y se evaluaron mediante mediciones objetivo y audición informal. El proceso de selección de características resulta en un conjunto de características que comprenden la energía espectral, el flujo espectral, la planicidad espectral, la asimetría espectral, LPC y coeficientes RASTA-PLP. Las características de energía 30 espectral, flujo, planicidad y asimetría, se calculan a partir del coeficiente espectral correspondiente a la escala de banda crítica.
[0038] Las características se detallan con respecto a la Figura 6. Características adicionales y la característica delta de la energía espectral y la característica delta-delta de la energía espectral filtrada de paso bajo
35 y el flujo espectral.
[0039] La estructura de la red neural empleada en los bloques 15, 20 ó 15 en la Figuras 4, o de preferencia empleada en el combinado de características 15 en la Figura 1 o Figura 2, se discuten en conexión con la Figura 10. En particular, la red neural preferida incluye una capa de neuronas de alimentación 100. En general, n neuronas de
40 alimentación pueden emplearse, es decir una neurona por cada característica de alimentación. De preferencia, la red de neuronas tiene 220 neuronas de alimentación que corresponden al número de características. La red neural comprende además una capa oculta 102 con p neuronas de capa ocultas. En general, p es menor que n y en la realización preferida, la capa oculta tiene 50 neuronas. En el lado de salida, la red neural incluye una capa de salida 104 con q neuronas de salida. En particular, el número de neuronas de salida es igual al número de bandas de 45 frecuencia, de tal manera que cada neurona de salida proporciona una información de control por cada banda de frecuencia tal como información SNR (Proporción de Habla-a-Interferencia) por cada banda de frecuencia. Si, por ejemplo, existen de preferencia 25 bandas de frecuencia diferentes que tienen un ancho de banda, que aumenta de frecuencias bajas a altas, entonces el número de neuronas de salida q será igual a 25. De esta manera, la red neural se aplica para el estimado de la SNR de sub-banda de las características de bajo nivel computadas. La red neural 50 tiene, como se ha establecido anteriormente, 220 neuronas de alimentación y una capa oculta 102 con 50 neuronas. El número de neuronas de salida es igual al número de bandas de frecuencia. De preferencia, las neuronas ocultas incluyen una función de activación, que es la tangente hiperbólica y la función de activación de las neuronas de salida es la identidad.
55 [0040] En general, cada neurona de la capa 102 ó 104 recibe todas las alimentaciones correspondientes, que
son, con respecto a la capa 102, las salidas de todas las neuronas de entrada o de alimentación. Entonces, cada neurona de la capa 102 ó 104 realiza una adición ponderada en donde los parámetros de ponderación corresponden a los parámetros de combinación. La capa oculta puede comprender valores de desviación además de los parámetros. Entonces, los valores de desviación también pertenecen a los parámetros de combinación. En
particular, cada alimentación se pondera por su correspondiente parámetro de combinación y la salida de la operación de ponderación, que se indica por una caja ejemplar 106 en la Figura 10 se alimenta en un sumador 108 dentro de cada neurona. La salida del sumador o una alimentación en una neurona puede comprender una función no lineal 110, que puede colocarse en la salida y/o entrada de una neurona, por ejemplo en la capa oculta según 5 pueda ser el caso.
[0041] Los pesos de la red neural se entrenan en mezclas de señales de habla limpias y ruidos de fondo cuya
SNR de referencia se computan utilizando señales separadas. El proceso de entrenamiento se ilustra en el lado a mano izquierda de la Figura 4. Habla y ruido se mezclan con una SNR de 3 dB por ítem y alimentan a la extracción 10 de características. Esta SNR es constante sobre el tiempo y un valor SNR de banda amplia. El conjunto de datos comprende 2.304 combinaciones de 48 señales de habla y 48 señales de ruido de 2,5 segundos de longitud cada una. Las señales de habla se originan de diferentes bocinas con 7 idiomas. Las señales de habla son registros de ruido de tráfico, ruido de la multitud y diversas atmósferas naturales.
15 [0042] Para una regla de ponderación espectral determinada, son apropiadas dos definiciones de la salida de
la red neural: la red neural puede entrenarse utilizando los valores de referencia para la SNR de sub-banda variante en tiempo R(w) o con los pesos espectrales G(W) (derivados de los valores SNR). Simulaciones con SNR de
sub-banda como valores de referencia producen mejores resultados objetivo y mejores calificaciones en audición informal en comparación con redes que se entrenaron con ponderaciones espectrales. La red neural se entrena 20 utilizando 100 ciclos de iteración. Un algoritmo de entrenamiento se emplea en este trabajo, que se basa en gradientes conjugados ajustados en escala.
[0043] Posteriormente se discutirán realizaciones preferidas de la operación de ponderación espectral 12.
25 [0044] Los estimados SNR de sub-banda son interpolados linealmente con la resolución de frecuencia de los
espectros de alimentación y transformados en proporciones lineales R. La SNR de sub-banda se alisa sobre el tiempo y sobre la frecuencia mediante el uso de filtrado de paso bajo IIR para reducir artefactos, que pueden resultar de errores de estimación. El filtrado de paso bajo sobre la frecuencia se requiere además para reducir el efecto de convolución circular, que ocurre si la respuesta de impulso de la ponderación espectral excede la longitud de los 30 cuadros DFT. Se realiza dos veces, mientras que el segundo filtrado se efectúa en orden inverso (partiendo con la última muestra) de tal manera que el filtro resultante tiene cero fases.
[0045] La Figura 5 ilustra el factor de ganancia como una función de la SNR. La ganancia aplicada (línea sólida) se compara con las ganancias de substracción espectral (líneas punteadas) y el filtro Wiener (línea con
35 rayas).
[0046] Los pesos espectrales se calculan según la regla de substracción espectral modificada en la Ecuación 5 y limitado a -18 dB.
40
G(w)
R (w)a
R (w)a +i R (gjf R (w)f+i
R (w)<i R (w)>i
(5)
[0047] Los parámetros a = 3.5 y p = 1 se determinan experimentalmente. Esta atenuación particular sobre 0 dB SNR se elige para evitar distorsiones de la señal de habla a expensas del ruido residual. La curva de atenuación como una función de SNR se ilustra en la Figura 5.
45
[0048] La Figura 9 muestra un ejemplo para las señales de alimentación y salida, la SNR de sub-banda estimada y los pesos espectrales.
[0049] Específicamente, la Figura 9 tiene un ejemplo de ponderación espectral: señal de tiempo de 50 alimentación, SNR de sub-banda estimada, SNR estimada en depósitos de frecuencia después de interpolación,
pesos espectrales y señal de tiempo procesado.
[0050] La Figura 6 ilustra un panorama sobre las características preferidas que se van a extraer por el extractor de características 14. El extractor de características prefiere para cada baja resolución, una banda de frecuencia, es decir por cada una de las 25 bandas de frecuencia para las cuales se requiere una SNR o valor de ganancia, una característica que representa la forma espectral de la representación espectral de corto-tiempo en la
5 banda de frecuencia. La forma espectral en la banda representa la distribución de energía dentro de la banda y puede ser implementada mediante varias reglas de cálculo diferentes.
[0051] Una característica de forma espectral preferida es la medida de planicidad espectral (SFM = spectral flatness measure), que es el promedio geométrico de los valores espectrales divididos por el promedio aritmético de
10 los valores espectrales. En la definición de promedio geométrico/promedio aritmético, una potencia puede aplicarse a cada valor espectral en la banda antes de realizar la operación de raíz n-ésima o la operación de promediado.
[0052] En general, una medida de planicidad espectral también puede calcularse cuando la potencia para procesar cada valor espectral en la fórmula de cálculo para SFM en el denominador, es superior a la potencia
15 empleada para el numerador. Entonces, ambos el denominador y el numerador pueden incluir una fórmula de cálculo de valor aritmético. De forma ejemplar, la potencia en el numerador es 2 y la potencia en el denominador es 1. En general, la potencia empleada en el numerador solo tiene que ser más grande que la potencia empleada en el denominador para obtener una medida de planicidad espectral generalizada.
20 [0053] Está claro a partir de este cálculo que SFM para una banda en la que la energía se distribuye
igualmente sobre toda la banda de frecuencia es menor que 1 y para muchas líneas de frecuencia, se aproxima a valores pequeños cercanos a 0, mientras que en el caso en el que la energía se concentra en un solo valor espectral dentro de una banda, por ejemplo el valor SFM es igual a 1. De esta manera, un alto valor SFM indica una banda en la que la energía se concentra en una cierta posición dentro de la banda, mientras que un pequeño valor SFM indica 25 que la energía se distribuye igualmente dentro de la banda.
[0054] Otras características de forma espectral incluyen la asimetría espectral, que mide la asimetría de la distribución alrededor de su centroide. Existen otras características que se relacionan con la forma espectral de una representación de frecuencia de corto-tiempo dentro de una cierta banda de frecuencia.
30
[0055] Mientras que la forma espectral se calcula para una banda de frecuencia, existen otras características, que se calculan para una banda de frecuencia así como se indica en la Figura 6 y como se discute en detalle a continuación. Y, también existen características adicionales, que no necesariamente tienen que calcularse para una banda de frecuencia, pero que se calculan para todo el ancho de banda.
35
Energía Espectral
[0056] La energía espectral se calcula para cada cuadro de tiempo y banda de frecuencia y se normaliza por energía total del cuadro. Adicionalmente, la energía espectral es filtrada de paso bajo con el tiempo mediante el uso
40 de un filtro IIR de segundo orden.
Flujo espectral
[0057] El flujo espectral SF se define como la diferencia entre espectros de cuadros sucesivos 20 y 45 frecuentemente se implementa mediante una función de distancia. En este trabajo, el flujo espectral se calcula
mediante el uso de la distancia euclidiana según la Ecuación 6, con coeficientes espectrales X(m, k), índice de
marco de tiempo m, índice de sub-banda r, fronteras inferior y superior de la banda de frecuencia lr y ur, respectivamente.
50
SF (m, r )
Ur
2 (|X(m, q)| -1X(m -1, q)|)2
q=lr
(6)
Medida de planicidad espectral
[0058] Existen diversas definiciones para el cálculo de la planicidad de un vector o la tonalidad de un
55 espectro (que se relaciona inversamente con la planicidad de un espectro). La medida de planicidad espectral SFM
empleada aquí se calcula como la proporción del promedio geométrico y el promedio aritmético de los coeficientes espectrales L de la señal de sub-banda como se muestra en la Ecuación 7.
5
Asimetría espectral
SFM (m, r )
e(z q=ir iog(ix (mq)i ))l
L ZUX(m, q)l
(7)
[0059] La asimetría de una distribución mide su asimetría alrededor de su centroide y se define como el
tercer momento central de una variable aleatoria dividido por el cubo de su desviación estándar.
10
Coeficientes de Predicción Lineal
[0060] Los Coeficientes de Predicción Lineal (LPC = Linear Prediction Coefficients) son los coeficientes
de un filtro omnipolar, que pronostica el valor actual x(k) de una serie de tiempo a partir de valores anteriores, de tal
15 manera que la media cuadrática del error E = ^ (_$k — xk)2 se minimiza.
$ p
x (k)=—Z aixk—j (8)
]=1
[0061] Los LPC se calculan mediante el procedimiento de autocorrelación.
20
Coeficientes cepstral de frecuencia Mel
[0062] Los espectros de potencia son combados según la escala Mel mediante el uso de funciones de ponderación triangular con peso único para cada banda de frecuencia. MFCC se calculan al tomar el logaritmo y
25 calcular la Transformada Coseno Discreto.
Coeficientes de predicción lineal perceptual de espectro relativos
[0063] Los coeficientes RASTA-PLP [H. Hermansky, N. Morgan, "RASTA Processing of Speech", IEEE Trans. 30 On Speech and Audio Processing, vol. 2, no. 4, pp. 578-589, 1994] se calculan a partir de espectros de potencia en
las siguientes etapas:
1. Compresión de magnitud de los coeficientes espectrales
2. Filtrado de paso de banda de la energía sub-banda con el tiempo
35 3. Expansión de magnitud que se relaciona con el procesamiento inverso de la etapa 2
4. Multiplicación con pesos que corresponden a una curva de volumen o nivel de ruido igual
5. Simulación de sensación de volumen o nivel de ruido al elevar los coeficientes a la potencia de 0,33
6. Cálculo de un modelo omnipolar de espectro resultante mediante el procedimiento de autocorrelación
40 Coeficientes de predicción lineal perceptual (PLP = Perceptual Linear Prediction)
[0064] Los valores PLP se calculan similares a los RASTA-PLP pero sin aplicar las etapas 1-3 [H. Hermansky, "Perceptual Linear Predictive Analysis for Speech", J. Ac. Soc. Am., vol. 87, no. 4, pp. 1738 - 1752, 1990].
45
Características delta
[0065] Características delta se han aplicado con éxito en reconocimiento de habla automático y clasificación de contenido de audio en el pasado. Existen diversas formas para su cálculo. Aquí, se calcula mediante convolución
50 de la secuencia de tiempo de una característica con una pendiente lineal con una longitud de 9 muestras (la velocidad de muestreado de la serie de tiempo característica es igual a la velocidad de cuadro de STFT). Características delta-delta se obtienen al aplicar la operación delta a las características delta.
[0066] Como se ha indicado anteriormente, se prefiere tener una separación de banda de la banda de frecuencia de baja-resolución, que es similar a la situación perceptual del sistema de audición humana. Por lo tanto, se prefiere una separación de banda logarítmica o una separación de banda tipo Bark. Esto significa que las bandas
5 que tienen una baja frecuencia central son más estrechas que las bandas que tienen una alta frecuencia central. En el cálculo de la medida de planicidad espectral, por ejemplo las operaciones de suma se extienden desde un valor q, que es normalmente el valor de frecuencia más bajo en una banda y se extienden al valor de cuenta ur, que es el valor espectral más alto dentro de una banda predefinida. Para tener una mejor medida de planicidad espectral, se prefiere utilizar, en las bandas inferiores, al menos algunos o todos los valores espectrales de la banda de frecuencia 10 adyacente inferior y/o superior. Esto significa que, por ejemplo la medida de planicidad espectral para la segunda banda, se calcula mediante el uso de los valores espectrales de la segunda banda y adicionalmente, mediante el uso de los valores espectrales de la primera banda y/o la tercera banda. En la realización preferida, no solo se emplean los valores espectrales de cualquiera de la primera o la segunda bandas, sino también se emplean los valores espectrales de la primera banda y la tercera banda. Esto significa que cuando se calcula SFM para la 15 segunda banda, q en la Ecuación (7) se extiende desde lr igual al primer valor espectral (más bajo) de la primera banda y ur es igual al más alto valor espectral en la tercera banda. De esta manera, una característica de forma espectral, que se basa en un número superior de valores espectrales, puede calcularse hasta un cierto ancho de banda en el cual el número de valores espectrales dentro de la propia banda es suficiente de tal manera que lr y ur indiquen valores espectrales de la misma banda de frecuencia de baja resolución.
20
[0067] Con respecto a los coeficientes de predicción lineal, que se extraen por el extractor de características, se prefiere ya sea utilizar el LPC aj de la Ecuación (8) o los valores residuales/de error que quedan después de la optimización o cualquier combinación de los coeficientes y los valores de error tal como una multiplicación o una adición con un factor de normalización de tal manera que los coeficientes así como los valores de error al cuadrado
25 influencian la característica LPC extraída por el extractor de características.
[0068] Una ventana de la característica de forma espectral es que es una característica de baja-dimensión. Cuando, por ejemplo, se considera el ancho de banda de frecuencia que tiene 10 valores espectrales complejos o reales, el uso de todos estos 10 valores espectrales complejos o reales no sería útil y no sería un desperdicio de
30 recursos computacionales. Por lo tanto, se extrae la característica de forma espectral, que tiene una dimensión, que es menor que la dimensión de los datos en bruto. Cuando por ejemplo, se considera la energía, entonces los datos en bruto tienen una dimensión de 10, ya que existen 10 valores espectrales al cuadrado. A fin de extraer la característica de forma espectral, que puede ser empleada eficientemente, se extrae una característica de forma espectral, que tiene una dimensión menor que la dimensión de los datos en bruto y que de preferencia, está en 1 ó 35 2. Una reducción de dimensión similar con respecto a los datos en bruto puede obtenerse cuando por ejemplo, se realiza un ajuste polinomio de bajo nivel a una envolvente espectral de una banda de frecuencia. Cuando por ejemplo, solo dos o tres parámetros se ajustan, entonces la característica de forma espectral incluye estos dos o tres parámetros de un polinomio o cualquier otro sistema de parametrización. En general, todos los parámetros, que indican la distribución de energía dentro de una banda de frecuencia y que tienen una baja dimensión menor al 5% o 40 al menos menor que el 50% o solo menor que el 30% de la dimensión de datos en crudo o en bruto, son útiles.
[0069] Se ha encontrado que el uso de la característica de forma espectral solo ya resulta en un comportamiento ventajoso del aparato para procesar una señal de audio, pero se prefiere utilizar al menos una característica a modo de banda adicional. También se ha mostrado que la característica a modo de banda adicional
45 útil para proporcionar resultados mejorados es la energía espectral por banda, que se calcula por cada cuadro de tiempo y banda de frecuencia y normaliza por la energía total del cuadro. Esta característica puede filtrarse de paso bajo o no. De forma adicional, se ha encontrado que la adición de la característica de flujo espectral mejora ventajosamente el desempeño del aparato de la invención, de tal manera que se obtiene un procedimiento eficiente que resulta en un buen desempeño cuando la característica de forma espectral por bandas se utiliza además de la 50 característica de energía espectral por banda y la característica de flujo espectral por banda. Además de las características adicionales, esto mejora de nuevo el desempeño del aparato de la invención.
[0070] Como se discute con respecto a la característica de energía espectral, puede aplicarse un filtrado de paso bajo de esta característica con el tiempo o aplicar una normalización promedio de movimiento sobre el tiempo,
55 pero no necesariamente debe de aplicarse. En el caso anterior, un promedio por ejemplo de las cinco características de forma espectral anteriores para la banda correspondiente, se calculan y el resultado de este cálculo se utiliza como la característica de forma espectral para la banda actual en el cuadro actual. Este promediado, sin embargo también puede aplicarse de forma bi-direccional, de tal manera que para la operación de promediado, no solo se utilizan características del pasado, sino también características del "futuro" para calcular la característica actual.
[0071] Las Figuras 7 y 8 se discutirán posteriormente a fin de proporcionar la implementación preferida del
extractor de características 14 como se ilustra en las Figuras 1, 2 ó 4. En una primera etapa, una señal de audio se presenta en pequeñas ventanas a fin de proporcionar un bloque de valores de muestreado de audio como se indica
5 en la etapa 70. De preferencia, se aplica una superposición. Esto significa que una y la misma muestra de audio
ocurre en dos cuadros sucesivos debido al intervalo de superposición, en donde se prefiere una superposición del 50% con respecto a los valores de muestreado de audio. En la etapa 71, una conversión de tiempo/frecuencia de un bloque de valores de muestreado de audio presentados en pequeñas ventanas se realiza a fin de obtener una representación de frecuencia con una primera resolución, que es una alta resolución. Para este fin, se obtiene una 10 transformada Fourier de corto tiempo (STFT = Short-Time Fourier Transform) con una FFT eficiente implementada. Cuando la etapa 71 se aplica varias veces con bloques temporalmente sucesivos de valores de muestreado de audio, un espectrograma se obtiene como se conoce en la técnica. En la etapa 72, la información espectral de alta resolución, es decir los valores espectrales de alta-resolución se agrupan en bandas de frecuencia de baja- resolución. Cuando por ejemplo, una FFT con 1024 ó 2048 valores de alimentación se aplica, 1024 ó 2048 valores
15 espectrales existen, pero esta alta resolución ni se requiere ni se pretende. Por el contrario, la etapa de
agrupamiento 72 resulta en una división del espectro de alta resolución en un pequeño número de bandas, tales como bandas que tienen un ancho de banda variante tal como por ejemplo conocido de las bandas Bark, o de una división de banda logarítmica. A continuación, subsecuente a la etapa de agrupamiento 72, un cálculo 73 de la característica de forma espectral y de preferencia otras características, se realiza para cada una de las bandas de 20 baja resolución. Aunque no se indica en la Figura 7, características adicionales referentes a toda la banda de frecuencia pueden calcularse mediante el uso de los datos obtenidos en la etapa 70, ya que para estas características de ancho de banda íntegro, cualesquiera separaciones espectrales obtenidas por la etapa 71 o la etapa 72 no se requieren.
25 [0072] La etapa 73 resulta en características de forma espectral, que tienen m dimensiones, en donde m es
menor que n y de preferencia es 1 ó 2 por banda de frecuencia. Esto significa que la información para una banda de frecuencia presente después de la etapa 72, se comprime en una información de baja dimensión presente después de la etapa 73 por la operación de extractor de características.
30 [0073] Como se indica en la Figura 7 cerca de la etapa 71 y la etapa 72, la etapa de conversión de
tiempo/frecuencia y agrupamiento puede reemplazarse para diferentes operaciones. La salida de la etapa 70 puede filtrarse con un banco de filtro de baja-resolución que, por ejemplo se implementa, de tal manera que en la salida se obtienen 25 señales de sub-banda. El análisis de alta-resolución de cada sub-banda puede realizarse entonces para obtener los datos primarios para el cálculo de características de forma espectral. Esto puede realizarse, por ejemplo 35 por un análisis FFT de una señal de sub-banda o por cualquier otro análisis de una señal de sub-banda, tal como por adicionales bancos de filtro en cascada.
[0074] La Figura 8 ilustra el procedimiento preferido para implementar el filtro controlable 12 de la Figura 1 o la característica de ponderación espectral ilustrada en la Figura 3 o indicada en 12 en la Figura 4. Subsecuente a la
40 etapa de determinación de la información de control a modo de banda de baja resolución, tal como los valores SNR de sub-banda, que se envían de salida por el bloque de regresión de red neural 15 de la Figura 4, como se indica en la etapa 80, se realiza una interpolación lineal a la alta resolución en la etapa 81.
[0075] El propósito es obtener finalmente un factor de ponderación para cada valor espectral que se obtiene 45 por la transformada Fourier de corto-tiempo realizada en la etapa 30 de la Figura 3, realizado en la etapa 71 o el
procedimiento alterno indicado a la derecha de las etapas 71 y 72. Subsecuente a la etapa 81, se obtiene un valor SNR para cada valor espectral. Sin embargo, este valor SNR todavía está en el dominio logarítmico y en la etapa 82 proporciona una transformación del dominio logarítmico en un dominio lineal por cada valor espectral de alta- resolución.
50
[0076] En la etapa 83, los valores SNR lineales por cada valor espectral, es decir a la alta resolución son alisados con el tiempo y frecuencia, tal como al utilizar filtros de paso bajo IIR o de forma alterna, filtros de paso bajo FIR, por ejemplo puede aplicarse cualquier operación de promedio en movimiento. En la etapa 84, los pesos espectrales por cada uno de los valores de frecuencia de alta-resolución se calculan con base en los valores SNR
55 lineales alisados. Este cálculo se basa en la función indicada en la Figura 5, aunque la función indicada en esta figura se da en términos logarítmicos, mientras que los pesos espectrales por cada valor de frecuencia de alta- resolución en la etapa 84 se calculan en el dominio lineal.
[0077] En la etapa 85, cada valor espectral se multiplica entonces por el peso espectral determinado para
obtener un conjunto de valores espectrales de alta-resolución, que se ha multiplicado por el conjunto de pesos espectrales. Este espectro procesado se convierte en frecuencia-tiempo en la etapa 86. Dependiendo del escenario de aplicación y dependiendo de la superposición empleado en la etapa 80, una operación de disminución cruzada puede realizarse entre dos bloques de valores de muestreado de audio con dominio de tiempo que se obtienen por 5 dos etapas de conversión subsecuentes de frecuencia-tiempo, para atender artefactos de bloqueo.
[0078] Puede aplicarse una presentación en pequeñas ventanas adicional para reducir artefactos de
convolución.
10 [0079] El resultado de la etapa 86 es un bloque de valores de muestreado de audio, que tiene un desempeño
de habla mejorado, es decir el habla puede ser percibida mejor que si se compara con la señal de alimentación de audio correspondiente, en donde la mejora de habla no se ha realizado.
[0080] Dependiendo de ciertos requisitos de implementación de los procedimientos de la invención, los
15 procedimientos de la invención pueden ser implementados en hardware o en software. La implementación puede ser realizada mediante el uso de un medio de almacenamiento digital, en particular, un disco, un DVD o un CD que tiene señales de control legibles electrónicamente almacenadas en el mismo, que cooperan con sistemas informáticos programables, de tal manera que se realicen los procedimientos de la invención. En general, la presente invención es por lo tanto un producto de programa informático con un código de programa almacenado en un soporte legible
20 por máquina, el código de programa se opera para realizar los procedimientos de la invención cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, los procedimientos de la invención son por lo tanto un programa informático que tiene un código de programa para realizar al menos uno de los procedimientos de la invención cuando el programa informático se ejecuta en un ordenador.
25 [0081] Las realizaciones descritas son solamente ilustrativas para los principios de la presente invención. Se
entiende que modificaciones y variaciones de los arreglos y detalles aquí descritos serán evidentes para otros expertos en la técnica. Es la intención, por lo tanto, estar limitados solo por el alcance de las reivindicaciones de patente pendientes y no por los detalles específicos presentados a modo de descripción y explicación de las presentes realizaciones.
30

Claims (14)

  1. REIVINDICACIONES
    1. Aparato para el procesamiento de una señal de audio para obtener información de control por subbanda para un filtro de mejora de habla, que comprende:
    5
    un extractor de características para la obtención de una secuencia de tiempo de representaciones espectrales de tiempo corto de la señal de audio y para la extracción de al menos una primera característica en cada banda de frecuencia de una pluralidad de bandas de frecuencia para una pluralidad de representaciones espectrales de tiempo corto, representando al menos una primera característica una forma espectral de una representación 10 espectral de tiempo corto en una banda de frecuencia de la pluralidad de bandas de frecuencia,
    en el que el extractor de características es operativo para extraer características secundarias adicionales que representan una característica de una representación espectral de corto tiempo por banda de frecuencia que es al menos una energía espectral, un flujo espectral entre marcos sucesivos y características delta o delta-delta y en el que el extractor de características es operativo para extraer adicionalmente características terceras para el ancho de 15 banda completo que es al menos una de las características de LPC, incluyendo las características de LPC una señal de error de LPC, coeficientes de predicción lineal hasta un orden predefinido o una combinación de las señales de error de LPC y coeficientes de predicción lineal, coeficientes PLP, coeficientes RASTA-PLP, coeficientes cepstral de frecuencia Mel y características delta; y
    un combinador de características para la combinación de al menos una primera característica, al menos una 20 segunda característica y al menos una tercera característica mediante el uso de parámetros de combinación para obtener la información de control para el filtro de mejora de habla para una porción de tiempo de la señal de audio, en el que el combinador de características es operativo para combinar al menos una primera característica para cada banda de frecuencia que representa una forma espectral, al menos una segunda característica adicional por banda de frecuencia y al menos una tercera característica adicional para el ancho de banda completo mediante el 25 uso de los parámetros de combinación.
  2. 2. Aparato según la reivindicación 1, en el que el extractor de características es operativo para aplicar una operación de conversión de frecuencia, en el que para una secuencia de instantes de tiempo, se obtiene una secuencia de representaciones espectrales, teniendo las representaciones espectrales bandas de frecuencia con
    30 anchos de banda no-uniformes, volviéndose un ancho de banda más grande con una frecuencia central incrementada de una banda de frecuencia.
  3. 3. Aparato según la reivindicación 1, en el que el extractor de características es operativo para calcular, como la primera característica, una medida de planicidad espectral por banda que representa una distribución de
    35 energía dentro de la banda, o como una segunda característica, una medida de energía normalizada por banda, estando basada la normalización en la energía total de un marco de señal, del cual se deriva la representación espectral, y
    en el que el combinador de características es operativo para utilizar la medida de planicidad espectral para una banda o la energía normalizada por banda.
    40
  4. 4. Aparato según una de las reivindicaciones anteriores, en el que el extractor de características es operativo para extraer adicionalmente como la segunda característica, para cada banda, una medida de flujo espectral que representa una similaridad o diferencia entre representaciones espectrales sucesivas en tiempo o una medida de asimetría espectral, representando la medida de asimetría espectral una asimetría alrededor de un
    45 centroide.
  5. 5. Aparato según la reivindicación 1, en el que el extractor de características es operativo para calcular las características de coeficiente de predicción lineal para un bloque de muestras de audio de dominio de tiempo, incluyendo el bloque muestras de audio utilizadas para extraer la característica como mínimo que representa la
    50 forma espectral por cada banda de frecuencia.
  6. 6. Aparato según la reivindicación 1, en el que el extractor de características es operativo para calcular la forma del espectro en una banda de frecuencia mediante el uso de información espectral de una o dos bandas de frecuencia inmediatamente adyacentes y la información espectral de la banda de frecuencia solo.
    55
  7. 7. Aparato según la reivindicación 1, en el que el extractor de características es operativo para extraer información de características en bruto por cada característica por bloque de muestras de audio y combinar la secuencia de información de características en bruto en una banda de frecuencia para obtener al menos una primera característica por la banda de frecuencia.
  8. 8. Aparato según la reivindicación 1, en el que el extractor de características es operativo para calcular, por cada banda de frecuencia, un número de valores espectrales y para combinar el número de valores espectrales, para obtener al menos una primera característica que representa la forma espectral de tal manera que al menos una primera característica tiene una dimensión, que es más pequeña que el número de valores espectrales en la banda
    5 de frecuencia.
  9. 9. Procedimiento de procesamiento de una señal de audio para obtener información de control por subbanda para un filtro de mejora de habla, que comprende:
    10 la obtención de una secuencia de tiempo de representaciones espectrales de corto tiempo de la señal de audio, la extracción de al menos una primera característica en cada banda de frecuencia de una pluralidad de bandas de frecuencia para una pluralidad de representaciones espectrales de corto tiempo, representando al menos una primera característica una forma espectral de una representación espectral de corto tiempo en una banda de frecuencia de la pluralidad de bandas de frecuencia,
    15 en el que segundas características adicionales que representan una característica de una representación espectral de corto tiempo por banda de frecuencia son al menos una de una energía espectral, un flujo espectral entre marcos sucesivos y se extraen características delta o delta-delta y en el que terceras características adicionales para el ancho de banda completo son al menos una de las características de LPC, incluyendo las características de LPC una señal de error de LPC, coeficientes de predicción lineal hasta un orden predefinido o una combinación de las 20 señales de error de LPC y coeficientes de predicción lineal, coeficientes PLP, coeficientes RASTA-RLP, coeficientes cepstral de frecuencia Mel y características delta son extraídos; y
    la combinación de al menos una primera característica, al menos una segunda característica y al menos una tercera característica mediante el uso parámetros de combinación para obtener la información de control para el filtro de mejora de habla para una porción de tiempo de la señal de audio, en el que al menos una primera característica 25 para cada banda de frecuencia que representa una forma espectral, al menos una segunda característica adicional por banda de frecuencia y al menos una tercera característica adicional para el ancho de banda completo se combinan para cada banda de frecuencia mediante el uso de los parámetros de combinación.
  10. 10. Aparato para mejora de habla en una señal de audio, que comprende:
    30
    un aparato para el procesamiento de la señal de audio para obtener información de control para un filtro de mejora de habla para una pluralidad de bandas que representan una porción de tiempo de la señal de audio según la reivindicación 1; y
    un filtro controlable, siendo controlable el filtro de tal manera que una banda de la señal de audio se atenúa de forma 35 variable con respecto a una banda diferente con base en la información de control.
  11. 11. Aparato según la reivindicación 10, en el que el aparato para procesamiento incluye el convertidor de frecuencia-tiempo que proporciona información espectral que tiene una resolución superior que una resolución espectral, para lo cual se proporciona información de control; y
    40 en el que el aparato comprende adicionalmente un post-procesador de información de control para interpolar la información de control a la alta resolución y para alisar la información de control interpolada, para obtener una información de control post-procesada con base en que parámetros de filtro controlables del filtro controlable se ajustan.
    45 12. Procedimiento para mejora de habla en una señal de audio, que comprende:
    un procedimiento de procesamiento de la señal de audio para obtener información de control para un filtro de mejora de habla para una pluralidad de bandas que representan una porción de tiempo de la señal de audio según la reivindicación 9; y
    50 el control de un filtro de tal manera que una banda de la señal de audio se atenúa de forma variable con respecto a una banda diferente con base en la información de control.
  12. 13. Aparato para entrenar un combinador de características, para determinar parámetros de combinación
    del combinador de características, que comprende:
    55
    un extractor de características para obtener una secuencia de tiempo de representaciones espectrales de corto tiempo de una señal de audio de entrenamiento, para lo cual se conoce una información de control para el filtro de mejora de habla por banda de frecuencia, y para extraer al menos una característica en cada banda de frecuencia de la pluralidad de bandas de frecuencia para una pluralidad de representaciones espectrales de corto tiempo,
    representando al menos una primera característica una forma espectral de una representación espectral de corto tiempo en una banda de frecuencia de la pluralidad de bandas de frecuencia;
    en el que el extractor de características es operativo para extraer características secundarias adicionales que representan una característica de una representación espectral de corto tiempo por banda de frecuencia que es al 5 menos una energía espectral, un flujo espectral entre marcos sucesivos y características delta o delta-delta y en el que el extractor de características es operativo para extraer adicionalmente características terceras para el ancho de banda completo que es al menos una de las características de LPC, incluyendo las características de LPC una señal de error de LPC, coeficientes de predicción lineal hasta un orden predefinido o una combinación de las señales de error de LPC y coeficientes de predicción lineal, coeficientes PLP, coeficientes RASTA-PLP, coeficientes cepstral de 10 frecuencia Mel y características delta; y un controlador de optimización para alimentar el combinador de características con al menos una primera característica, al menos una segunda característica y al menos una tercera característica por cada banda de frecuencia, para calcular la información de control mediante el uso de parámetros de combinación intermedios, para variar los parámetros de combinación intermedios, para comparar la información de control variada con la información de control conocida y para actualizar los parámetros de combinación 15 intermedios, cuando los parámetros de combinación intermedios variados resultan en información de control que se corresponde mejor con la información de control conocida, en el que el combinador de características es operativo para combinar al menos una característica para cada banda de frecuencia que representa una forma espectral, al menos una segunda característica adicional por banda de frecuencia y al menos una tercera característica adicional para el ancho de banda completo mediante el uso de los parámetros de combinación.
    20
  13. 14. Procedimiento para entrenar un combinador de características, para la determinación de parámetros de combinación del combinador de características, que comprende:
    la obtención de una secuencia de tiempo de representaciones espectrales de corto tiempo de una señal de audio de 25 entrenamiento, para lo cual se conoce una información de control para un filtro de mejora de habla por banda de frecuencia;
    la extracción de al menos una primera característica en cada banda de frecuencia de la pluralidad de bandas de frecuencia para una pluralidad de representaciones espectrales de corto tiempo, representando al menos una primera característica una forma espectral de una representación espectral de corto tiempo en una banda de 30 frecuencia de la pluralidad de bandas de frecuencia;
    en el que las segundas características adicionales que representan una característica de una representación espectral de corto tiempo por banda de frecuencia que es al menos una de una energía espectral, un flujo espectral entre marcos sucesivos, y características delta o delta-delta son extraídas, y
    en el que terceras características adicionales para el ancho de banda completo son al menos una de las 35 características de LPC, incluyendo las características de LPC una señal de error de LPC, coeficientes de predicción lineal hasta un orden predefinido o una combinación de las señales de error de LPC y coeficientes de predicción lineal, coeficientes PLP, coeficientes RASTA-RLP, coeficientes cepstral de frecuencia Mel y características delta son extraídos;
    la alimentación del combinador de características con al menos una primera, al menos una segunda y al menos una 40 tercera característica por cada banda de frecuencia;
    el cálculo de la información de control mediante el uso de parámetros de combinación intermedios; la variación de los parámetros de combinación intermedios;
    la comparación de la información de control variada con la información de control conocida;
    la actualización de los parámetros de combinación intermedios, cuando los parámetros de combinación intermedios 45 variados resultan en información de control que se corresponde mejor con la información de control conocida,
    en el que el combinador de características es operativo para combinar al menos una primera característica para cada banda de frecuencia que representa una forma espectral, al menos una segunda característica adicional por banda de frecuencia y al menos una tercera característica adicional para el ancho de banda completo mediante el uso de parámetros de combinación.
    50
  14. 15. Programa informático para realizar, cuando se ejecuta en un ordenador, un procedimiento según la reivindicación 9, 12 ó 14.
ES08017124.2T 2008-08-05 2008-09-29 Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica Active ES2678415T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US8636108P 2008-08-05 2008-08-05
US086361 2008-08-05

Publications (1)

Publication Number Publication Date
ES2678415T3 true ES2678415T3 (es) 2018-08-10

Family

ID=49170422

Family Applications (1)

Application Number Title Priority Date Filing Date
ES08017124.2T Active ES2678415T3 (es) 2008-08-05 2008-09-29 Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica

Country Status (13)

Country Link
US (1) US9064498B2 (es)
EP (1) EP2151822B8 (es)
JP (1) JP5666444B2 (es)
KR (1) KR101266894B1 (es)
CN (1) CN102124518B (es)
AU (1) AU2009278263B2 (es)
CA (1) CA2732723C (es)
ES (1) ES2678415T3 (es)
HK (1) HK1159300A1 (es)
MX (1) MX2011001339A (es)
RU (1) RU2507608C2 (es)
TR (1) TR201810466T4 (es)
WO (1) WO2010015371A1 (es)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
DE102010009745A1 (de) * 2010-03-01 2011-09-01 Gunnar Eisenberg Verfahren und Vorrichtung zur Verarbeitung von Audiodaten
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
JP2012163919A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
US9589580B2 (en) * 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
JP2012235310A (ja) * 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
US9984676B2 (en) * 2012-07-24 2018-05-29 Nuance Communications, Inc. Feature normalization inputs to front end processing for automatic speech recognition
JP6234060B2 (ja) * 2013-05-09 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US9443533B2 (en) * 2013-07-15 2016-09-13 Rajeev Conrad Nongpiur Measuring and improving speech intelligibility in an enclosure
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103474072B (zh) * 2013-10-11 2016-06-01 福州大学 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
US10360901B2 (en) * 2013-12-06 2019-07-23 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
EP3719801B1 (en) * 2013-12-19 2023-02-01 Telefonaktiebolaget LM Ericsson (publ) Estimation of background noise in audio signals
JP2017509014A (ja) * 2014-02-14 2017-03-30 ドナルド ジェームズ デリック 音声分析および知覚増強のためのシステム
IN2014MU00739A (es) * 2014-03-04 2015-09-25 Indian Inst Technology Bombay
PT3136384T (pt) * 2014-04-25 2019-04-22 Ntt Docomo Inc Dispositivo de conversão do coeficiente de previsão linear e método de conversão do coeficiente de previsão linear
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US9881631B2 (en) * 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
WO2016091332A1 (en) 2014-12-12 2016-06-16 Huawei Technologies Co., Ltd. A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
CN104966517B (zh) * 2015-06-02 2019-02-01 华为技术有限公司 一种音频信号增强方法和装置
EP3118851B1 (en) * 2015-07-01 2021-01-06 Oticon A/s Enhancement of noisy speech based on statistical speech and noise models
KR101677137B1 (ko) * 2015-07-17 2016-11-17 국방과학연구소 변조 스펙트로그램을 이용한 수중 방사체의 데몬 및 lofar 특징을 동시 추출하는 방법 및 장치
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN105611477B (zh) * 2015-12-27 2018-06-01 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
WO2017141317A1 (ja) * 2016-02-15 2017-08-24 三菱電機株式会社 音響信号強調装置
EP3220367A1 (en) * 2016-03-14 2017-09-20 Tata Consultancy Services Limited System and method for sound based surveillance
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US11003987B2 (en) * 2016-05-10 2021-05-11 Google Llc Audio processing with neural networks
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
EP3301675B1 (en) 2016-09-28 2019-08-21 Panasonic Intellectual Property Corporation of America Parameter prediction device and parameter prediction method for acoustic signal processing
US10614827B1 (en) * 2017-02-21 2020-04-07 Oben, Inc. System and method for speech enhancement using dynamic noise profile estimation
US10504538B2 (en) 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
US10381020B2 (en) 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
DE102017212431A1 (de) * 2017-07-20 2019-01-24 Robert Bosch Gmbh Verfahren und Vorrichtung zur Verarbeitung eines Signals
US11270198B2 (en) * 2017-07-31 2022-03-08 Syntiant Microcontroller interface for audio signal processing
US20190066657A1 (en) * 2017-08-31 2019-02-28 National Institute Of Information And Communications Technology Audio data learning method, audio data inference method and recording medium
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
US10325588B2 (en) * 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
EP3701527B1 (en) * 2017-10-27 2023-08-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating a bandwidth-enhanced audio signal using a neural network processor
US10283140B1 (en) 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
US11341983B2 (en) 2018-09-17 2022-05-24 Honeywell International Inc. System and method for audio noise reduction
WO2020086771A1 (en) 2018-10-24 2020-04-30 Gracenote, Inc. Methods and apparatus to adjust audio playback settings based on analysis of audio characteristics
CN110008972B (zh) * 2018-11-15 2023-06-06 创新先进技术有限公司 用于数据增强的方法和装置
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
KR102093929B1 (ko) * 2018-12-05 2020-03-26 중앙대학교 산학협력단 Cim 기반의 시스템 건전성 진단을 위한 장치 및 방법
JP7095586B2 (ja) * 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法
CN109448749B (zh) * 2018-12-19 2022-02-15 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN111369986A (zh) * 2018-12-26 2020-07-03 成都启英泰伦科技有限公司 一种智能安全传输语音系统及方法
KR20200080913A (ko) 2018-12-27 2020-07-07 서울과학기술대학교 산학협력단 자기상관계수를 이용한 심층신경망 기반 신호처리 방법 및 장치
KR102096588B1 (ko) * 2018-12-27 2020-04-02 인하대학교 산학협력단 음향 장치에서 맞춤 오디오 잡음을 이용해 사생활 보호를 구현하는 기술
KR102188264B1 (ko) * 2019-01-04 2020-12-08 순천향대학교 산학협력단 언어재활 기반 발성 음성 평가 장치 및 방법
EP3694229A1 (en) * 2019-02-08 2020-08-12 Oticon A/s A hearing device comprising a noise reduction system
KR102198273B1 (ko) * 2019-02-26 2021-01-04 한미란 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램
CN109767789A (zh) * 2019-03-06 2019-05-17 慧言科技(天津)有限公司 一种用于语音情感识别的新特征提取方法
WO2020209840A1 (en) * 2019-04-09 2020-10-15 Hewlett-Packard Development Company, L.P. Applying directionality to audio by encoding input data
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
KR20200137561A (ko) * 2019-05-30 2020-12-09 국방과학연구소 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법
CN110534123B (zh) * 2019-07-22 2022-04-01 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
US20220277761A1 (en) * 2019-07-29 2022-09-01 Nippon Telegraph And Telephone Corporation Impression estimation apparatus, learning apparatus, methods and programs for the same
CN110491407B (zh) * 2019-08-15 2021-09-21 广州方硅信息技术有限公司 语音降噪的方法、装置、电子设备及存储介质
CN110473567B (zh) * 2019-09-06 2021-09-14 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质
CN110556121B (zh) * 2019-09-18 2024-01-09 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556123B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
US11587575B2 (en) * 2019-10-11 2023-02-21 Plantronics, Inc. Hybrid noise suppression
JP7348812B2 (ja) 2019-10-31 2023-09-21 東京都公立大学法人 雑音抑制装置、雑音抑制方法及び音声入力機器
CN111223493B (zh) * 2020-01-08 2022-08-02 北京声加科技有限公司 语音信号降噪处理方法、传声器和电子设备
CN111259776B (zh) * 2020-01-13 2023-04-18 浙江大学 一种基于同步平均主成分时频分析的确定性信号提取方法
KR20210101670A (ko) * 2020-02-10 2021-08-19 삼성전자주식회사 음질 개선 방법 및 이를 이용한 전자 장치
KR102329353B1 (ko) * 2020-03-17 2021-11-22 성균관대학교산학협력단 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치
US11521637B1 (en) * 2020-08-19 2022-12-06 Amazon Technologies, Inc. Ratio mask post-filtering for audio enhancement
CN111986660A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种神经网络子带建模的单通道语音增强方法、系统及存储介质
US20220101872A1 (en) * 2020-09-25 2022-03-31 Descript, Inc. Upsampling of audio using generative adversarial networks
CN112349277B (zh) * 2020-09-28 2023-07-04 紫光展锐(重庆)科技有限公司 结合ai模型的特征域语音增强方法及相关产品
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
GB202018375D0 (en) * 2020-11-23 2021-01-06 Rossi Lisa Audio signal processing systems and methods
US11475869B2 (en) 2021-02-12 2022-10-18 Plantronics, Inc. Hybrid noise suppression for communication systems
CN115116469B (zh) * 2022-05-25 2024-03-15 腾讯科技(深圳)有限公司 特征表示的提取方法、装置、设备、介质及程序产品

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822742A (en) 1989-05-17 1998-10-13 The United States Of America As Represented By The Secretary Of Health & Human Services Dynamically stable associative learning neural network system
JP3084721B2 (ja) * 1990-02-23 2000-09-04 ソニー株式会社 雑音除去回路
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
JP3247011B2 (ja) 1994-04-12 2002-01-15 富士通株式会社 セル配置改善装置及び方法
SE505175C2 (sv) 1994-12-01 1997-07-07 Ericsson Telefon Ab L M Förfarande och telekommunikationssystem för att åstadkomma ett abonnentstyrt uppkopplingsförlopp i ett telekommunikationsnät
US5960391A (en) 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
SE506034C2 (sv) 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
DE60104091T2 (de) * 2001-04-27 2005-08-25 CSEM Centre Suisse d`Electronique et de Microtechnique S.A. - Recherche et Développement Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
JP3933909B2 (ja) * 2001-10-29 2007-06-20 日本放送協会 音声/音楽混合比推定装置およびそれを用いたオーディオ装置
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
AU2003904207A0 (en) * 2003-08-11 2003-08-21 Vast Audio Pty Ltd Enhancement of sound externalization and separation for hearing-impaired listeners: a spatial hearing-aid
US7890323B2 (en) * 2004-07-28 2011-02-15 The University Of Tokushima Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer
RU52536U1 (ru) * 2005-12-08 2006-03-27 Общество с ограниченной ответственностью "Филком" Цифровой модуль преобразования речи
EP1918910B1 (en) * 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Model-based enhancement of speech signals
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
EP2191467B1 (en) * 2007-09-12 2011-06-22 Dolby Laboratories Licensing Corporation Speech enhancement
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal

Also Published As

Publication number Publication date
TR201810466T4 (tr) 2018-08-27
CN102124518B (zh) 2013-11-06
RU2011105976A (ru) 2012-08-27
CN102124518A (zh) 2011-07-13
US20110191101A1 (en) 2011-08-04
AU2009278263B2 (en) 2012-09-27
WO2010015371A1 (en) 2010-02-11
US9064498B2 (en) 2015-06-23
EP2151822B8 (en) 2018-10-24
JP5666444B2 (ja) 2015-02-12
MX2011001339A (es) 2011-05-10
JP2011530091A (ja) 2011-12-15
EP2151822B1 (en) 2018-04-25
KR20110044990A (ko) 2011-05-03
EP2151822A1 (en) 2010-02-10
HK1159300A1 (en) 2012-07-27
RU2507608C2 (ru) 2014-02-20
CA2732723C (en) 2016-10-11
AU2009278263A1 (en) 2010-02-11
CA2732723A1 (en) 2010-02-11
KR101266894B1 (ko) 2013-05-24

Similar Documents

Publication Publication Date Title
ES2678415T3 (es) Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
KR101461774B1 (ko) 대역폭 확장기
US8165875B2 (en) System for suppressing wind noise
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
JP5127754B2 (ja) 信号処理装置
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
US20100198588A1 (en) Signal bandwidth extending apparatus
US20170032803A1 (en) Method and system for suppressing noise in speech signals in hearing aids and speech communication devices
JP5443547B2 (ja) 信号処理装置
Nelke Wind noise reduction: signal processing concepts
CN111508512A (zh) 语音信号中的摩擦音检测
Bao et al. A novel speech enhancement method using power spectra smooth in wiener filtering
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP6361148B2 (ja) 雑音推定装置、方法及びプログラム
Jiang et al. Speech noise reduction algorithm in digital hearing aids based on an improved sub-band SNR estimation
BRPI0911932A2 (pt) equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica
Upadhyay et al. A perceptually motivated stationary wavelet packet filter-bank utilizing improved spectral over-subtraction algorithm for enhancing speech in non-stationary environments
EP2760022B1 (en) Audio bandwidth dependent noise suppression