ES2243727T3 - Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados. - Google Patents

Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados.

Info

Publication number
ES2243727T3
ES2243727T3 ES02734843T ES02734843T ES2243727T3 ES 2243727 T3 ES2243727 T3 ES 2243727T3 ES 02734843 T ES02734843 T ES 02734843T ES 02734843 T ES02734843 T ES 02734843T ES 2243727 T3 ES2243727 T3 ES 2243727T3
Authority
ES
Spain
Prior art keywords
voice
voice data
distorted
spectra
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02734843T
Other languages
English (en)
Inventor
Hans-Gunther Hirsch
Rainer Klisch
Volker Springer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2243727T3 publication Critical patent/ES2243727T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Communication Control (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

Un método de procesar espectros de voz distorsionada de corto período para reconocimiento automático de voz, en el que los datos de voz distorsionada de corto período son proporcionados en forma de espectros en el dominio espectral o son proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal, que comprende a) proporcionar un conjunto de datos de voz de referencia en forma de espectros en el dominio espectral o en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal; b) determinar los datos de voz de referencia que corresponden a los datos de voz distorsionada de corto período; c) estimar una respuesta de frecuencia teniendo en cuenta los datos de voz distorsionada de corto período y los datos de voz de referencia correspondientes; d) compensar los datos de voz distorsionada de corto período basándose en la respuesta de frecuencia estimada.

Description

Método, dispositivo, terminal y sistema para el reconocimiento automático de datos de voz distorsionados.
Antecedentes de la invención Campo técnico de la invención
La invención se refiere al campo del reconocimiento automático de voz y, más en particular, a un método y a un dispositivo para procesar datos de voz distorsionada para reconocimiento automático de voz.
Descripción de la técnica anterior
El reconocimiento automático de voz se está convirtiendo en una tecnología que se usa para controlar todo tipo de dispositivos electrónicos como teléfonos móviles o para obtener acceso a servicios sobre una red de telecomunicaciones.
Se ha visto que una señal de voz procesada durante el reconocimiento automático de voz puede ser corrompida en su camino hacia un reconocedor automático de voz por varios tipos de ruido. Uno de éstos se denomina ruido "aditivo" y corresponde a ruido estacionario de fondo durante el reconocimiento. Además, el reconocimiento es influído por la respuesta de frecuencia del canal de transmisión desde el locutor a la entrada de audio del reconocedor automático de voz. Para este tipo de distorsión se ha introducido el término ruido convolucional. A continuación, los términos ruido convolucional y "distorsión" son usados de manera sinónima.
La influencia de los ruidos aditivo y convolucional puede describirse aproximadamente en el dominio espectral lineal por
Y(t,f) = IH(f)l^{2} \cdot S(t,f) + N (f).
en que Y(t,f) representa los espectros de densidad de potencia de corto período de la voz distorsionada que son tomados como entrada para el reconocedor automático de voz, H(f) es la respuesta de frecuencia desconocida del canal de transmisión, S(t,f) son los espectros de densidad de potencia de corto período de voz limpia y N(f) es el espectro del ruido aditivo. Usualmente se supone que H(f) y N(f) son casi constantes o sólo lentamente variables durante el tiempo t.
En lo que sigue, se consideran con más detalle los problemas asociados con la respuesta de frecuencia del canal de transmisión. Es evidente por sí mismo que el rendimiento de reconocimiento de un reconocedor automático de voz se degrada si se usan canales de transmisión variables que tengan diferentes respuestas de frecuencia. Como ejemplo, pueden obtenerse respuestas de frecuencia variables del uso de diferentes micrófonos (por ejemplo, el micrófono interno de un terminal de móvil y el micrófono de un equipo de manos libres para este terminal de móvil) o la transmisión de voz por líneas telefónicas que tengan diferentes respuestas de frecuencia. En general, el problema de un rendimiento de reconocimiento degradante es debido al hecho de que el entrenamiento del reconocedor automático de voz es realizado usando un primer canal de transmisión (por ejemplo, usando el micrófono interno del terminal de un móvil o usando una primera línea telefónica) y el reconocedor automático de voz es hecho funcionar luego usando un canal de transmisión diferente (por ejemplo, usando un equipo de manos libres o una línea telefónica diferente).
Examinando el espectro de entrada del reconocedor automático de voz en el dominio espectral logarítmico y despreciando por el momento la contribución del ruido aditivo N(f), el producto anterior de H(f) y S(t,f) resulta ser una suma:
log[Y(t,f)] = log[IH(f)l^{2}] + log[S(t,f)]
Por tanto, puede verse que en el dominio espectral logarítmico los espectros de densidad de potencia S(t,f) de la voz limpia son desplazados bajo la influencia de la respuesta de frecuencia H(f) por una desviación constante. Las tecnologías existentes para compensar la influencia de diferentes respuestas de frecuencia H(f) intentan eliminar esta desviación constante.
Como ejemplo, puede mencionarse la tecnología de compensación de Normalización de la Media Cepstral (CMN) (Y. Gong: "Reconocimiento de voz en ambientes ruidosos: un estudio", Comunicación de voz, Vol. 16, pp 261-291, 1995). Una posible ejecución de la técnica CMN estima la media de cada valor cepstral sobre una enunciación. Luego esta media es substraída del valor cepstral en cada trama, describiendo una trama una secuencia corta de datos de voz. El supuesto planteado por esta técnica es que el promedio del valor cepstral sobre el intervalo de voz representa la distorsión de canal. La distorsión de canal es calculada en general por un promedio cepstral de largo período, que no es adecuado para aplicaciones en tiempo real. Sin embargo, se han propuesto también ejecuciones del promedio cepstral de corto período. Las ejecuciones de corto período suponen que la distorsión de canal varía lentamente en comparación con la señal de voz.
Otras técnicas de compensación intentan eliminar la desviación constante mediante un filtrado adaptivo de las envolventes espectrales de la enunciación real basado en valores espectrales previos. Una posible ejecución de la técnica de compensación de filtrado adaptivo es descrita en L. Mauuray: "Igualación ciega en el dominio cepstral para reconocimiento robusto de voz basado en el teléfono", Proced. de la conferencia Eusipco, Rodas, Grecia, pp 359-362, 1998.
De acuerdo con una tercera ejecución de técnicas para compensar la influencia de respuestas de frecuencia variables en el rendimiento del reconocimiento, se usa una estima de la respuesta de frecuencia para adaptar los modelos de referencia usados en el proceso de ajuste de patrón de reconocimiento automático de voz. Dicha ejecución es conocida por ejemplo por H. G. Hirsch: "Adaptación de HMMs en presencia de ruidos aditivo y convolucional", seminario de IEEE sobre reconocimiento y comprensión automáticos de voz, Santa Barbara, EE.UU., pp 412-419, 1997. Dada una estima de la respuesta de frecuencia, los parámetros de Modelos Ocultos de Markov (HMM) usados en el proceso de ajuste de patrón son adaptados de conformidad con el enfoque de Combinación Paralela de Modelos (PMC).
Las técnicas para compensar la influencia de las respuestas de frecuencia variables conocidas en la técnica anterior adolecen de varios inconvenientes. Como ejemplo, la técnica CMN puede ser aplicada solamente fuera de línea, es decir, después de que toda la enunciación haya sido analizada espectralmente. A causa de esto, el proceso de reconocimiento puede ser iniciado solamente al final de la enunciación ya que los espectros de voz tienen que ser almacenados transitoriamente. Esto produce una demora considerable. Aunque la técnica de compensación de filtrado adaptivo puede realizarse en línea, esta técnica de compensación usa también información espectral del pasado para compensar las distorsiones en la enunciación real. Por último, la técnica de compensación de adaptar los modelos de voz de referencia basada en una estima de la respuesta de frecuencia no puede ser aplicada fácilmente en el contexto del reconocimiento distribuído de voz en que la extracción de la característica es hecha en terminales separados y en que las características extraídas son transmitidas luego en forma de datos a un lugar remoto para ajuste de patrón.
Por consiguiente, hay necesidad de un método, un dispositivo y un terminal para procesar espectros de voz distorsionada de corto período que permitan incrementar el rendimiento del reconocimiento automático de voz.
Sumario de la invención
De acuerdo con la invención, esta necesidad es satisfecha por un método según la reivindicación 1, un dispositivo según la reivindicación 14 y un terminal según la reivindicación 16 para procesar datos de voz distorsionada de corto período que son proporcionados como espectros en el dominio espectral o que son proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal. Por ejemplo, los datos de voz distorsionada de corto período pueden ser proporcionados en el dominio cepstral ya que dichos datos de voz pueden ser obtenidos de datos de voz en el dominio espectral por medio de una Transformada de Coseno Discreta (DCT). Para un entendimiento más fácil de la invención, se usa después solamente la expresión "espectros de voz". Sin embargo, esta referencia a datos de voz en el dominio espectral puede ser sustituída por una referencia a cualquier dominio que pueda derivarse del dominio espectral por una transformada lineal tal como el dominio cepstral.
A continuación, la expresión "de corto período" usada en el contexto de espectros de voz denota un período de tiempo que corresponde a una longitud de trama típica en un reconocimiento automático de voz, es decir, varios milisegundos. Los espectros de voz distorsionada de corto período son procesados preferiblemente en secuencia. Una secuencia de espectros de voz puede contener todos los espectros de voz de corto período con una sola enunciación que ha de ser analizada por reconocimiento automático de voz. Sin embargo, con el fin de estimar la respuesta de frecuencia no tienen que tenerse en cuenta todos los espectros de voz de corto período comprendidos dentro de una enunciación. En muchos casos, será suficiente basar la estimación, por ejemplo, en cada segundo espectro de voz comprendido dentro de una secuencia de espectros de voz distorsionada de corto período. En el caso extremo, la estimación de la respuesta de frecuencia puede ser realizada usando como entrada un solo espectro o solamente unos pocos espectros de voz distorsionada de corto período.
De acuerdo con una realización preferida, los espectros de voz de referencia o cepstras son proporcionados en el mismo dominio en el que es estimada la respuesta de frecuencia. A causa de esto, se facilita la estimación de la respuesta de frecuencia a causa de que una conversión de los espectros de voz de referencia desde un dominio a otro se hace obsoleta. Por ejemplo, si los espectros de voz distorsionada son los espectros de densidad de potencia logarítmica log [Y(t,f)] de una enunciación y si la respuesta de frecuencia es estimada en el dominio espectral logarítmico, el conjunto de espectros de voz de referencia puede ser proporcionado igualmente en forma de espectros de densidad de potencia logarítmica (S(t,f) en el dominio espectral logarítmico.
La compensación de los espectros de voz distorsionada de corto período tiene lugar preferiblemente en el dominio espectral. Sin embargo, en algunos casos puede resultar ventajoso realizar la compensación en un dominio que fuera derivado del dominio espectral por una transformada lineal especialmente cuando los espectros de voz de referencia no son proporcionados en el dominio espectral.
La estimación de la respuesta de frecuencia se hace más exacta si se basa solamente en espectros de voz que contienen realmente voz. Con este fin, los espectros de voz pueden ser analizados por medio de una decisión con voz/sin voz para determinar si con alta probabilidad contienen voz. Si solamente estos espectros de voz distorsionada que realmente contienen voz, son procesados ulteriormente con el fin de determinar espectros de voz de referencia correspondientes, estimando la respuesta de frecuencia y compensando los espectros de voz distorsionada, puede incrementarse el rendimiento del reconocimiento.
Preferiblemente, los espectros de voz de referencia son obtenidos de datos de voz sometidos a una respuesta de frecuencia conocida o sometidos a una distorsión baja. Si se encuentran disponibles datos de voz distorsionada sometidos a una respuesta de frecuencia conocida, el conjunto de espectros de voz de referencia puede ser generado compensando los datos de voz distorsionada basándose en la respuesta de frecuencia conocida. Los datos de voz generados por medio de un equipo de high-end y sometidos a una distorsión baja pueden ser convertidos directamente en espectros de voz de referencia sin ninguna operación de compensación.
El conjunto de espectros de voz de referencia proporcionado con la finalidad de estimar la respuesta de frecuencia puede ser producido por ejemplo solamente para este fin y puede ser almacenado previamente durante la producción del reconocedor automático de voz en una base de datos separada. Alternativamente, los espectros de voz que han sido generados con otros fines como previamente almacenados (por ejemplo, en el caso de reconocimiento automático de voz independiente del locutor) o entrenados por el usuario (por ejemplo, en el caso de reconocimiento automático de voz dependiente del locutor) los espectros de voz de modelo que constituyen modelos de referencia para reconocimiento automático de voz pueden ser usados además con la finalidad de estimar la respuesta de frecuencia.
La respuesta de frecuencia es estimada tomando como entrada los espectros de voz distorsionada de corto período y los correspondientes espectros de voz de referencia. Así, antes del proceso de estimación, tienen que determinarse los espectros de voz de referencia correspondientes a los espectros de voz distorsionada de corto período. Esto puede conseguirse de varias maneras. Como primer ejemplo, los espectros de voz de referencia correspondientes a los espectros de voz distorsionada pueden ser determinados hallando los espectros de voz de referencia más próximos a los datos de voz distorsionada. Esto puede ser realizado calculando la distancia entre un espectro de voz distorsionado individual y todos los espectros de voz de referencia del conjunto de espectros de voz de referencia. El espectro de voz de referencia que tenga la distancia más pequeña desde el espectro de voz distorsionado es determinado entonces como el espectro de voz de referencia correspondiente a este espectro de voz distorsionado. La distancia entre un espectro de voz de referencia y un espectro de voz distorsionado puede ser calculada por ejemplo basándose en el error medio al cuadrado.
Si el conjunto de espectros de voz de referencia está constituído por los espectros de voz de modelo que forman los modelos de referencia usados para reconocimiento automático de voz, un segundo ejemplo para determinar los espectros de voz de referencia correspondientes a los espectros de voz distorsionada puede consistir en hallar el modelo de referencia o más modelos de referencia que ajusten una secuencia de espectros de voz distorsionada y analizar qué espectro de voz distorsionado ha sido ajustado durante el ajuste de patrón con el espectro de voz de modelo. El espectro de voz de modelo de ajuste puede ser determinado luego como el espectro de voz de referencia que corresponde a este espectro de voz distorsionado.
De acuerdo con una realización preferida, los espectros de voz de referencia que corresponde a los espectros de voz distorsionada son determinados después de que los espectros de voz distorsionada han sido compensados basándose en una respuesta de frecuencia previamente estimada. Se ha visto que la determinación de los espectros de voz de referencia de ajuste resulta ser así más exacta. Sin embargo, con la finalidad de estimar la respuesta de frecuencia, se usan otra vez los espectros de voz distorsionada no compensados.
Después de que se han determinado lo espectros de voz de referencia que corresponden a los espectros de voz distorsionada, se estima la respuesta de frecuencia usando como entrada los espectros de voz distorsionada y los espectros de voz de referencia correspondientes. Existen varias posibilidades para estimar la respuesta de frecuencia. De acuerdo con una realización preferida, la respuesta de frecuencia es estimada basándose en la diferencia entre los espectros de voz distorsionada y los espectros de voz de referencia correspondientes. En el dominio espectral logarítmico, la diferencia puede calcularse simplemente substrayendo del valor logarítmico del espectro de voz de referencia correspondiente el valor logarítmico de un espectro de voz distorsionado. Si se han de usar dos o más espectros de voz distorsionada como base para estimar la respuesta de frecuencia, la respuesta de frecuencia puede calcularse hallando el promedio de las diferencias sobre una pluralidad de espectros de voz distorsionada y espectros de voz de referencia correspondientes. El promedio puede ejecutarse sobre una secuencia completa de espectros de voz distorsionada, es decir, una enunciación completa.
Aunque el concepto de la invención puede aplicarse también en línea, una secuencia de espectros de voz distorsionada es compensada preferiblemente basándose en la respuesta de frecuencia estimada para una secuencia previa de espectros de voz distorsionada. Dicha técnica de compensación se basa en el supuesto de que la respuesta de frecuencia no cambia rápidamente de una secuencia de espectros de voz distorsionada a otra, es decir, de una enunciación de entrada a la siguiente. A fin de facilitar una compensación que se base en la respuesta de frecuencia estimada para una secuencia previa de datos de voz distorsionada, puede estar prevista una memoria intermedia para almacenar temporalmente una respuesta de frecuencia estimada. La memoria intermedia está dispuesta ventajosamente entre la etapa de procesamiento y la unidad de compensación del dispositivo para procesar los datos de voz distorsionada.
A fin de reducir la influencia de posibles estimaciones erróneas, puede usarse una respuesta de frecuencia actualmente estimada para actualizar una respuesta de frecuencia previamente estimada. En otras palabras, la respuesta de frecuencia estimada para una secuencia de espectros de voz distorsionada puede ser suavizada teniendo en cuenta la respuesta de frecuencia estimada para una secuencia previa de datos de voz distorsionada. La respuesta de frecuencia previamente estimada también puede ser almacenada temporalmente en la memoria intermedia anteriormente mencionada.
Hasta ahora, la invención se describió en relación con la compensación de una respuesta de frecuencia en los espectros de voz distorsionada de corto período. Además de a la compensación del ruido convolucional la invención se refiere también a la compensación de ruido aditivo presente en los datos de voz distorsionada. Preferiblemente, el ruido aditivo es compensado antes de determinar qué espectros de voz de referencia corresponden a los espectros de voz distorsionada. Esto quiere decir que los espectros de voz de entrada distorsionados son sometidos primeramente a una compensación del ruido aditivo y que los espectros de voz así compensados son usados subsiguientemente como base para determinar los espectros de voz de referencia, para estimar la respuesta de frecuencia y para compensar la respuesta de frecuencia.
El método y el dispositivo descritos en lo que antecede se emplean preferiblemente en la pare extrema delantera, por ejemplo, en la etapa de análisis de voz, de un sistema de reconocimiento automático de voz. Esto quiere decir que al menos la estimación de la respuesta de frecuencia y la compensación de la respuesta de frecuencia son realizadas durante o inmediatamente después de la extracción de características. La etapa de análisis de voz y una etapa de reconocimiento de voz del sistema de reconocimiento automático de voz pueden estar dispuestas dentro de un mismo aparato o dentro de aparatos diferentes. De acuerdo con el aspecto preferido del reconocimiento distribuído de voz, la etapa de análisis de voz puede estar dispuesta en un lado terminal del sistema de reconocimiento distribuído de voz y el ajuste de patrón puede ser realizado en una etapa central de reconocimiento de voz de un servidor de red del sistema de reconocimiento distribuído de voz.
El método anterior puede ser ejecutado por ejemplo como una solución de equipo físico o como programas informáticos que comprenden partes de código del producto para realizar las operaciones individuales del método cuando los programas informáticos sean hechos funcionar en un sistema de reconocimiento automático de voz. Los programas informáticos pueden ser almacenados en un medio de registro legible por ordenador como soporte de datos unido al mismo o separable del sistema de reconocimiento automático de voz.
Breve descripción de los dibujos
Otras ventajas y detalles de la invención resultarán evidentes al estudiar la siguiente descripción detallada de realizaciones preferidas de la invención y con referencia a los dibujos, en los que:
La figura 1 es un diagrama de bloques de una primera realización de un dispositivo para procesar espectros de voz distorsionada de corto período de acuerdo con la invención;
La figura 2 es un diagrama de bloques de una segunda realización de un dispositivo para procesas espectros de voz distorsionada de corto período de acuerdo con la invención; y
La figura 3 es un diagrama esquemático de un sistema de reconocimiento distribuído de voz de acuerdo con la invención.
Descripción detallada de las realizaciones preferidas
En la figura 1 se ilustra una primera realización de un dispositivo 10 para procesar espectros de voz distorsionada de corto período para reconocimiento automático de voz. El dispositivo 10 forma parte de un terminal de móvil (por ejemplo, un teléfono móvil que pueda ser controlado por enunciaciones habladas) y comprende una etapa de análisis de voz 12 y una etapa de reconocimiento de voz 14. El dispositivo 10 representado en la figura 1 está constituído para procesar espectros de voz distorsionada en forma de secuencias consecutivas, correspondiendo cada secuencia de espectros de voz distorsionada a una enunciación individual.
El dispositivo 10 recibe datos de voz distorsionada que fueron generados a partir de una señal de voz analógica. En una primera operación, la señal de voz analógica fue convertida de analógica en digital a una tasa de muestreo de 8 kHz. La señal de voz digitalizada resultante fue sometida luego a formación de tramas a fin de generar tramas consecutivas de datos de voz. La duración de trama es de 25 milisegundos y el intervalo de desplazamiento, es decir, la diferencia entre los puntos de iniciación de tramas consecutivas, es de 80 muestras. Los datos de voz en tramas son convertidos luego desde el dominio de tiempo en el dominio espectral lineal por medio de una Transformada Rápida de Fourier (FFT). De este modo, se obtienen los espectros de voz de corto período de los datos de vos en tramas. Los componentes requeridos para obtener los espectros de voz de corto período en el dominio espectral lineal son bien conocidos en la técnica y, por consiguiente, no se muestran en la figura 1.
Como se representa en la figura 1, los espectros de voz distorsionada de corto período que fueron convertidos al dominio espectral lineal son sometidos primeramente a un análisis espectral de corto período en la banda de frecuencias MEL en un banco de filtros MEL 20. En el banco de filtros MEL 20 la banda espectral de lo espectros de voz distorsionada de corto período es dividida en L subbandas o canales que son equidistantes en el dominio espectral MEL. Cada subbanda tiene una ventanilla de frecuencia triangular y subbandas consecutivas se semisolapan. La cantidad L de subbandas se encuentra típicamente en un margen comprendido entre 15 y 30.
Detrás del banco de filtros MEL 20 las L subbandas son procesadas en paralelo. Por razones de simplificación, las operaciones que siguen al filtrado MEL en el banco de filtros MEL 20 se describen de manera ilustrativa para una sola subbanda.
Los espectros de voz distorsionada filtrados con MEL son alimentados a una unidad opcional de compensación de ruido aditivo 22 que compensa la influencia del ruido aditivo de fondo como existe en muchos ambientes, por ejemplo, en un coche. La unidad de compensación de ruido aditivo 22 elimina así la componente de ruido aditivo presente en los espectros de voz distorsionada.
La unidad de compensación de ruido aditivo 22 analiza además los espectros de voz distorsionada recibidos del banco de filtros MEL 20 a fin de tomar una decisión con voz/sin voz. Mediante la decisión con voz/sin voz puede asegurarse que sean procesados de manera adicional solamente los espectros de voz distorsionada que (con una alta probabilidad) contengan voz. La decisión con voz/sin voz dentro de la unidad de compensación de ruido aditivo 22 puede derivarse de la energía de voz de corto período de los datos de voz distorsionada. Antes de la FFT, pueden calcularse las energías de voz de los espectros de voz distorsionada y las energías de voz así calculadas pueden compararse dentro de la unidad de compensación de ruido aditivo 22 con la energía estimada del ruido de fondo. Se usan espectros de voz distorsionada para estimar la respuesta de frecuencia sólo si las respectivas energías de voz se encuentran a un nivel predefinido sobre la energía estimada del ruido de fondo.
Después de que se han eliminado las componentes de ruido aditivo dentro de los espectros de voz distorsionada de corto período y se ha tomado una decisión con voz/sin voz, los espectros de voz distorsionada se someten a una conversión desde el dominio espectral lineal al dominio espectral logarítmico por medio de un bloque de transformadas no lineales 24.
Solamente los espectros de voz distorsionada que contengan realmente voz son alimentados luego a una etapa de procesamiento que comprende una unidad de procesamiento individual 26. Concurrentemente, todos los espectros de voz distorsionada son alimentados a una unidad de compensación 28 del dispositivo 10. En la unidad de compensación 28 los espectros de voz distorsionada son compensados basándose en una respuesta de frecuencia estimada en la unidad de procesamiento 26 sobre la base de una secuencia previa de datos de voz distorsionada de corto período.
Después de que la unidad de compensación 28 compense la distorsión, los espectros de voz distorsionada de corto período son sometidos a una Transformada de Coseno Discreta (DCT) en un bloque de transformadas DCT 30. En el bloque de transformadas DCT 30 se calculan los coeficientes cepstrales de los espectros de voz compensados en un corto período de tiempo. En otras palabras, los espectros de voz de corto período son transformados desde el dominio espectral logarítmico al dominio cepstral o cepstrum.
El ajuste de patrón que permite hallar uno o más modelos de referencia correspondientes a la secuencia de espectros de voz de corto período enviados como salida por el bloque de transformadas DCT 30 es realizado en una unidad de ajuste de patrón 32. La unidad de ajuste de patrón 32 está configurada como un reconocedor de Viterbi. Alternativamente, la unidad de ajuste de patrón 32 puede ser una red neural.
Una enunciación es reconocida dentro de la unidad de ajuste de patrón 32 usando modelos de referencia como HMMs contenidos en una base de datos de modelos de referencia 34. Por medio de alineación de Viterbi se ajusta una secuencia individual de espectros de voz de corto período en el dominio cepstral con los estados de cada HMM para hallar la secuencia o una secuencia de HMMs que mejor ajuste la secuencia de espectros de voz de corto período. Los HMMs correspondientes son enviados subsiguientemente a modo de salida como resultado de reconocimiento indicado en la figura 1.
A continuación, se describe el proceso de estimar la respuesta de frecuencia con más detalle y haciendo referencia a la unidad de procesamiento 26, una base de datos 36 y una memoria intermedia 38 del dispositivo 10 representado en la figura 1.
Como se ha mencionado previamente, la salida del bloque de transformadas no lineales 24 no sólo es enviado como entrada a la unidad de compensación 28 sino que en enviado concurrentemente como entrada a la unidad de procesamiento 26. La base de datos 36 está constituída como un libro de códigos de vectores espectrales y contiene un conjunto de datos de voz de referencia.
Al ser recibidos los espectros de voz distorsionada desde el bloque de transformadas no lineales 24, la unidad de procesamiento 26 determina por separado para cada subbanda los espectros de voz de referencia correspondientes a los datos de voz distorsionada. Esto se consigue hallando para cada espectro de voz distorsionado el correspondiente espectro de voz de referencia que está más próximo al espectro de voz distorsionado. Con el fin de hallar un espectro de voz de referencia correspondiente para un espectro de voz distorsionado, el espectro de voz distorsionado es compensado primero basándose en una respuesta de frecuencia previamente estimada, y luego se determina el correspondiente espectro de voz de referencia basándose en el espectro de voz compensado. Los espectros de voz de referencia más próximos a un espectro de voz compensado específico pueden hallarse por ejemplo por medio de álgebra vectorial bien conocida en la técnica anterior. Como ejemplo, los espectros de voz de referencia más próximos pueden ser determinados calculando el error medio al cuadrado sobre todo el espectro MEL.
La base de datos 36 tiene un tamaño típico de 32, 64 ó 128 entradas. En el caso de un banco de filtros MEL 20 con 24 subbandas (L = 24) y cuantificando cada espectro de voz con un byte, la base de datos 36, que tiene por ejemplo 64 entradas, requeriría 1.536 bytes de memoria. Los espectros de voz de referencia contenidos en la base de datos 36 se obtuvieron de espectros de voz que fueron procesados hasta el bloque de transformadas no lineales 24 como se esboza en lo que antecede con referencia a los datos de voz distorsionada. Sin embargo, el equipo usado para generar los espectros de voz de referencia fueron elegidos de tal manera que los espectros de voz de referencia fueron sometidos solamente a una distorsión lo más baja posible. Por consiguiente, los espectros de voz de referencia así generados pueden considerarse como espectros de voz "limpios".
Después de que la unidad de procesamiento 26 ha determinado los espectros de voz de referencia correspondientes a los espectros de voz distorsionada, estima la respuesta de frecuencia del canal de transmisión actual. La respuesta de frecuencia es estimada en el dominio algorítmico según
Log [| H(f) |^{2}] = 1/T \sum\limits_{t} \{log[Y(t,f)]-log[S(t,f)]\}
en que Y(t,f) representa los espectros de voz distorsionada de corto período y S(t,f) representa los espectros de voz de referencia correspondientes determinados por la unidad de procesamiento 26. La suma sobre t representa la acumulación de diferencias espectrales entre los espectros de voz distorsionada y los correspondientes datos de voz de referencia. El factor 1/T sirve para hallar el promedio o normalización a la longitud de la secuencia de espectros de voz distorsionada respectivamente el número de espectros de voz distorsionada tomados en cuenta. Durante el cálculo del promedio o normalización solamente se toman en cuenta los espectros de voz que con alta probabilidad contienen voz.
Como ha resultado evidente de lo que antecede, la respuesta de frecuencia H(f) es estimada teniendo en cuenta los espectros de voz distorsionada formados dentro de una secuencia de espectros de voz distorsionada de una enunciación individual. La respuesta de frecuencia estimada para una secuencia de espectros de voz distorsionada es transferida desde la unidad de procesamiento 26 a la memoria intermedia 38 en que es almacenada temporalmente hasta que es alimentada a la unidad de compensación 28 una secuencia siguiente de espectros de voz distorsionada correspondiente a la siguiente enunciación. En la unidad de compensación 28 una secuencia actual de espectros de voz distorsionada es compensada luego usando la respuesta de frecuencia almacenada dentro de la memoria intermedia 38 y relacionándola con una secuencia previa de espectros de voz distorsionada.
La compensación de la respuesta de frecuencia dentro de la unidad de compensación 28 es realizada en el dominio espectral logarítmico substrayendo la respuesta de frecuencia estimada para una secuencia previa de espectros de voz desde los espectros de voz distorsionada de una secuencia actual de espectros de voz distorsionada de acuerdo con
log[S_{i+1}(t,f)] = log[Y_{i+1}(t,f)]-log[lH_{i}(f)l^{2}]
en que (i+1) denota la (i+1)ésima trama de espectros de voz distorsionada e i representa la respuesta de frecuencia previamente estimada.
Para reducir la influencia de posibles estimaciones erróneas la respuesta de frecuencia estimada puede ser suavizada actualizando recursivamente una respuesta de frecuencia previamente estimada de acuerdo con
log[lH_{i}(f)l^{2}] = \alpha\cdot log[lH_{i-1}(f)l^{2}] + (1-\alpha) \cdot log[lH_{i}(f) l^{2}]
en que \alpha es un factor menor pero próximo a 1, i denota la respuesta de frecuencia actualmente estimada e (i-1) denota la respuesta de frecuencia previamente estimada. La suavización de la respuesta de frecuencia es realizada preferiblemente en la unidad de procesamiento 26.
En la figura 2, se ilustra una segunda realización de un dispositivo 10 para procesar espectros de voz distorsionada de corto período para reconocimiento automático de voz. Como el dispositivo 10 de acuerdo con la segunda realización tiene algunas similitudes con el dispositivo de una primera realización, elementos correspondientes han sido denotados con los mismos signos de referencia.
El dispositivo 10 de acuerdo con la segunda realización se aparta del dispositivo de la primera realización en que se usa un conjunto diferente de espectros de voz de referencia y en que hay un enlace adicional 44 entre la etapa de reconocimiento 14 y la etapa de análisis de voz 12.
De acuerdo con la segunda realización representada en la figura 2, la respuesta de frecuencia es estimada usando la información espectral que está contenida en los modelos de referencia (HMM) del sistema de reconocimiento automático de voz. Así, la base de datos 34 que contiene los HMM predefinidos o de entrenamiento por el usuario es usada simultáneamente como base de datos para espectros de voz de referencia. Esto quiere decir que el conjunto de espectros de voz de referencia está constituído por los espectros de voz de modelo de los que están formados los HMMs dentro de la base de datos 34.
De acuerdo con la segunda realización, los espectros de voz de referencia correspondientes a los espectros de voz distorsionada son determinados como se indica a continuación.
Después de haber reconocido una enunciación en la unidad de ajuste de patrón 32, se usa el ajuste en la alineación de Viterbi para definir la "mejor" secuencia de estados HMM que representa los datos de voz de entrada. Se analiza así qué espectros de voz enviados como entrada a la unidad de ajuste de patrón 32 han sido ajustados y a qué estado de un HMM individual. Esto se realiza en el dominio cepstral por medio de la unidad analizadora 40 que comunica con la unidad de ajuste de patrón 32. Los parámetros cepstrales del estado de HMM de ajuste son alimentados luego desde la unidad analizadora 40 a una unidad IDCT 42 que ejecuta una Transformada de Coseno Discreta inversa (IDCT). Por tanto, los espectros de voz de referencia son convertidos desde el dominio cepstral al dominio espectral logarítmico y pueden ser usados fácilmente por la unidad de procesamiento 26 para estimar la respuesta de frecuencia. La unidad de procesamiento 26 y la unidad analizadora 40 constituyen juntas una etapa de procesamiento del dispositivo 10 representado en la figura 2.
La respuesta de frecuencia es estimada en la unidad de procesamiento 26 basándose en los espectros de voz de referencia recibidos de la unidad de IDCT 42 y los correspondientes espectros de voz distorsionada en el dominio espectral logarítmico. Otra vez se consideran solamente los espectros de voz que con alta probabilidad contienen voz. Es necesario almacenar temporalmente los espectros de voz distorsionada, para lo cual los espectros de voz de referencia son determinados en la unidad analizadora 40, en la unidad de procesamiento 26 hasta que los correspondientes espectros de voz de referencia sean recibidos por la unidad de procesamiento 26 desde la unidad de IDCT 42. Este procedimiento se aplica a toda la enunciación, y el cálculo del promedio se ejecuta subsiguientemente sobre todas las estimas de corto período. La respuesta de frecuencia estimada se usa luego para compensar la siguiente secuencia de espectros de voz distorsionada como se esbozó anteriormente con respecto a la primera realización.
En la figura 3 se ilustra una realización de un sistema de Reconocimiento distribuído de voz (DSR) 100 de acuerdo con la invención. El DSR 100 comprende un servidor de red 102 que comunica con una pluralidad de terminales 104 a través de enlaces de comunicación alámbricos o inalámbricos 106. Los terminales 104 pueden configurarse como teléfonos móviles o teléfonos alámbricos convencionales.
Cada terminal 104 comprende una etapa de análisis de voz 12 como se describe en lo que antecede con referencia a las figuras 1 y 2. Una etapa correspondiente de reconocimiento de voz 14 de acuerdo con las figuras 1 y 2 está situada dentro del servidor de red 102. Los espectros de voz distorsionada de corto período son procesados dentro de las etapas de análisis de voz 12 de los terminales 104 hasta la generación de los coeficientes cepstrales. Los coeficientes cepstrales son descodificados luego dentro de los terminales 104 y transmitidos a través de los enlaces de comunicación 106 al servidor de red 102. El servidor de red 102 descodifica los coeficientes cepstrales recibidos. Basándose en el ajuste de los coeficientes cepstrales descodificados es realizado un ajuste de patrones dentro de la etapa de reconocimiento de voz 14 del servidor de red 102. De este modo, se obtiene un resultado de reconocimiento.
Si el DSR 100 representado en la figura 3 comprende la etapa de análisis de voz 12 y la etapa de reconocimiento de voz 14 representada en la figura 2, los enlaces de comunicación 106 tienen que configurarse de tal manera que los espectros cepstrales de voz de referencia determinados por la etapa de reconocimiento de voz 14 pueden ser transmitidos de nuevo a los terminales 104 en que se ejecuta la transformada de IDCT.
Si bien la invención se ha descrito con referencia a la figura 3 para un sistema de reconocimiento distribuído de voz, los dispositivos 10 representados en las figuras 1 y 2 pueden estar dispuestos también en un sistema convencional de reconocimiento automático de voz en que la etapa de análisis de voz 12 y la etapa de reconocimiento de voz 14 estén situadas en el mismo lugar.

Claims (17)

1. Un método de procesar espectros de voz distorsionada de corto período para reconocimiento automático de voz, en el que los datos de voz distorsionada de corto período son proporcionados en forma de espectros en el dominio espectral o son proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal, que comprende a) proporcionar un conjunto de datos de voz de referencia en forma de espectros en el dominio espectral o en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal; b) determinar los datos de voz de referencia que corresponden a los datos de voz distorsionada de corto período; c) estimar una respuesta de frecuencia teniendo en cuenta los datos de voz distorsionada de corto período y los datos de voz de referencia correspondientes; d) compensar los datos de voz distorsionada de corto período basándose en la respuesta de frecuencia estimada.
2. El método según la reivindicación 1, que comprende además analizar los datos de voz distorsionada por medio de una decisión con voz/sin voz y ejecutar las operaciones b), c) y d) de la reivindicación 1 solamente con respecto a los datos de vos distorsionados que contienen voz.
3. El método según la reivindicación 1 ó 2, en el que los datos de voz distorsionada son compensados en el dominio espectral o en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal.
4. El método según una de las reivindicaciones 1 a 3, en el que el conjunto de datos de voz de referencia es obtenido de los datos de voz sometidos a una respuesta de frecuencia conocida o sometidos a baja distorsión.
5. El método según una de las reivindicaciones 1 a 4, en el que los datos de voz de referencia correspondientes a los datos de voz distorsionada son determinados hallando los datos de voz de referencia más próximos a los datos de voz distorsionada.
6. El método según una de las reivindicaciones 1 a 4, en el que el conjunto de datos de voz de referencia está constituído por datos de voz de modelo proporcionados en forma de espectros en el dominio espectral o proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal, de los que están formados los modelos de referencia para reconocimiento automático de voz.
7. El método según la reivindicación 6, en el que los datos de voz de referencia correspondientes a los datos de voz distorsionada son determinados hallando uno o más modelos de referencia que se ajusten a una secuencia de datos de voz distorsionada y analizando qué datos de voz de modelo se ajustan a los datos de voz distorsionada.
8. El método según una de las reivindicaciones 1 a 7, en el que con la finalidad de determinar los datos de voz de referencia correspondientes a los datos de voz distorsionada, los datos de voz distorsionada son compensados basándose en una respuesta de frecuencia previamente estimada.
9. El método según una de las reivindicaciones 1 a 8, en el que la respuesta de frecuencia es estimada basándose en la diferencia entre los datos de voz distorsionada y los datos de voz de referencia correspondientes.
10. El método según la reivindicación 9, en el que la respuesta de frecuencia es estimada hallando el promedio de las diferencias sobre una pluralidad de datos de voz distorsionada de corto período y los correspondientes datos de voz de referencia.
11. El método según una de las reivindicaciones 1 a 10, en el que una secuencia de datos de voz distorsionada es compensada basándose en la respuesta de frecuencia estimada para una secuencia previa de datos de voz distorsionada.
12. El método según una de las reivindicaciones 1 a 11, que comprende además suavizar la respuesta de frecuencia estimada para una secuencia de datos de voz distorsionada teniendo en cuenta la respuesta de frecuencia estimada para una secuencia previa de datos de voz distorsionada.
13. El método según una de las reivindicaciones 1 a 12, que comprende además compensar el ruido aditivo en los datos de voz distorsionada antes de determinar los datos de voz de referencia.
14. Un dispositivo (10) para procesar datos de voz distorsionada de corto período para reconocimiento automático de voz, en el que los datos de voz distorsionada de corto período son proporcionados en forma de espectros en el dominio espectral o son proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal, que comprende una base de datos (34, 36) para datos de voz de referencia proporcionados en forma de espectros en un dominio espectral o proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal; una etapa de procesamiento (26, 40) para determinar los datos de voz de referencia correspondientes a los datos de voz distorsionada de corto período y para estimar una respuesta de frecuencia teniendo en cuenta los datos de voz distorsionada de corto período y los correspondientes datos de voz de referencia; una unidad de compensación (28) para compensar los datos de voz distorsionada de corto período basándose en la respuesta de frecuencia estimada.
15. El dispositivo según la reivindicación 14, que comprende además una memoria intermedia (38) para almacenar temporalmente la respuesta de frecuencia estimada.
16. Un terminal (104) que comprende una etapa de análisis de voz (12 con una base de datos (34, 36) para datos de voz de referencia proporcionados en forma de espectros en el dominio espectral o proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal; una etapa de procesamiento (26) para determinar los datos de voz de referencia correspondientes a datos de voz distorsionada de corto período proporcionados en forma de espectros en el dominio espectral o proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal, y para estimar una respuesta de frecuencia teniendo en cuenta los datos de voz distorsionada de corto período y los datos de voz de referencia correspondientes; una unidad de compensación (28) para compensar los datos de voz distorsionada de corto período basándose en la respuesta de frecuencia estimada.
17. Un sistema de reconocimiento distribuído de voz (100) que comprende al menos un terminal (104) de acuerdo con la reivindicación 16 y un servidor de red (102) con una etapa central de reconocimiento de voz (14).
ES02734843T 2001-01-26 2002-01-16 Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados. Expired - Lifetime ES2243727T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01101813A EP1229516A1 (en) 2001-01-26 2001-01-26 Method, device, terminal and system for the automatic recognition of distorted speech data
EP01101813 2001-01-26

Publications (1)

Publication Number Publication Date
ES2243727T3 true ES2243727T3 (es) 2005-12-01

Family

ID=8176306

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02734843T Expired - Lifetime ES2243727T3 (es) 2001-01-26 2002-01-16 Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados.

Country Status (6)

Country Link
US (1) US20020138252A1 (es)
EP (2) EP1229516A1 (es)
AT (1) ATE296477T1 (es)
DE (1) DE60204282T2 (es)
ES (1) ES2243727T3 (es)
WO (1) WO2002059872A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2506771C2 (de) * 1975-02-18 1983-12-01 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren zur Verbesserung der Sprechererkennung
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
DE19500494C2 (de) * 1995-01-10 1997-01-23 Siemens Ag Merkmalsextraktionsverfahren für ein Sprachsignal
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
EP1096471B1 (en) * 1999-10-29 2004-09-22 Telefonaktiebolaget LM Ericsson (publ) Method and means for a robust feature extraction for speech recognition
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US6633843B2 (en) * 2000-06-08 2003-10-14 Texas Instruments Incorporated Log-spectral compensation of PMC Gaussian mean vectors for noisy speech recognition using log-max assumption

Also Published As

Publication number Publication date
EP1354312B1 (en) 2005-05-25
WO2002059872A1 (en) 2002-08-01
ATE296477T1 (de) 2005-06-15
DE60204282T2 (de) 2006-05-24
EP1229516A1 (en) 2002-08-07
EP1354312A1 (en) 2003-10-22
US20020138252A1 (en) 2002-09-26
DE60204282D1 (de) 2005-06-30

Similar Documents

Publication Publication Date Title
CA2210490C (en) Spectral subtraction noise suppression method
DK1760696T3 (en) Method and apparatus for improved estimation of non-stationary noise to highlight speech
EP1252621B1 (en) System and method for modifying speech signals
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
JPH10288996A (ja) 音声認識方法及び音声信号処理装置
BRPI0114706B1 (pt) método de codificação de voz, sistema receptor e transmissor do sinal de voz para codificar e decodificar o sinal de entrada, decodificador, estação móvel e elemento de rede
Bořil et al. UT-Scope: Towards LVCSR under Lombard effect induced by varying types and levels of noisy background
US20050267739A1 (en) Neuroevolution based artificial bandwidth expansion of telephone band speech
US20020062211A1 (en) Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition
Afify et al. Sequential noise estimation with optimal forgetting for robust speech recognition
US8494845B2 (en) Signal distortion elimination apparatus, method, program, and recording medium having the program recorded thereon
Hilger et al. Quantile based histogram equalization for online applications
ES2243727T3 (es) Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados.
Neumeyer et al. Training issues and channel equalization techniques for the construction of telephone acoustic models using a high-quality speech corpus
KR101610708B1 (ko) 음성 인식 장치 및 방법
Cerisara et al. α-Jacobian environmental adaptation
Kolossa et al. Recognition of convolutive speech mixtures by missing feature techniques for ICA
Thomsen et al. Speech enhancement and noise-robust automatic speech recognition
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
Upadhyay et al. Bark scaled oversampled WPT based speech recognition enhancement in noisy environments
Surendran et al. Predictive adaptation and compensation for robust speech recognition
Raghavan Speaker and environment adaptation in continuous speech recognition
Boril et al. A study on combined effects of reverberation and increased vocal effort on asr
de Veth et al. Acoustic features and distance measure to reduce vulnerability of ASR performance due to the presence of a communication channel and/or background noise
Pujol et al. Speech recognition experiments with the SPEECON database using several robust front-ends.