ES2243727T3 - Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados. - Google Patents
Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados.Info
- Publication number
- ES2243727T3 ES2243727T3 ES02734843T ES02734843T ES2243727T3 ES 2243727 T3 ES2243727 T3 ES 2243727T3 ES 02734843 T ES02734843 T ES 02734843T ES 02734843 T ES02734843 T ES 02734843T ES 2243727 T3 ES2243727 T3 ES 2243727T3
- Authority
- ES
- Spain
- Prior art keywords
- voice
- voice data
- distorted
- spectra
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001228 spectrum Methods 0.000 claims abstract description 184
- 206010013952 Dysphonia Diseases 0.000 claims abstract description 89
- 230000004044 response Effects 0.000 claims abstract description 81
- 230000003595 spectral effect Effects 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 23
- 239000000654 additive Substances 0.000 claims description 17
- 230000000996 additive effect Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000220010 Rhode Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Communication Control (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
Un método de procesar espectros de voz distorsionada de corto período para reconocimiento automático de voz, en el que los datos de voz distorsionada de corto período son proporcionados en forma de espectros en el dominio espectral o son proporcionados en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal, que comprende a) proporcionar un conjunto de datos de voz de referencia en forma de espectros en el dominio espectral o en cualquier dominio que pueda ser derivado del dominio espectral por una transformada lineal; b) determinar los datos de voz de referencia que corresponden a los datos de voz distorsionada de corto período; c) estimar una respuesta de frecuencia teniendo en cuenta los datos de voz distorsionada de corto período y los datos de voz de referencia correspondientes; d) compensar los datos de voz distorsionada de corto período basándose en la respuesta de frecuencia estimada.
Description
Método, dispositivo, terminal y sistema para el
reconocimiento automático de datos de voz distorsionados.
La invención se refiere al campo del
reconocimiento automático de voz y, más en particular, a un método y
a un dispositivo para procesar datos de voz distorsionada para
reconocimiento automático de voz.
El reconocimiento automático de voz se está
convirtiendo en una tecnología que se usa para controlar todo tipo
de dispositivos electrónicos como teléfonos móviles o para obtener
acceso a servicios sobre una red de telecomunicaciones.
Se ha visto que una señal de voz procesada
durante el reconocimiento automático de voz puede ser corrompida en
su camino hacia un reconocedor automático de voz por varios tipos de
ruido. Uno de éstos se denomina ruido "aditivo" y corresponde a
ruido estacionario de fondo durante el reconocimiento. Además, el
reconocimiento es influído por la respuesta de frecuencia del canal
de transmisión desde el locutor a la entrada de audio del
reconocedor automático de voz. Para este tipo de distorsión se ha
introducido el término ruido convolucional. A continuación, los
términos ruido convolucional y "distorsión" son usados de
manera sinónima.
La influencia de los ruidos aditivo y
convolucional puede describirse aproximadamente en el dominio
espectral lineal por
Y(t,f) =
IH(f)l^{2} \cdot S(t,f) + N
(f).
en que Y(t,f) representa los
espectros de densidad de potencia de corto período de la voz
distorsionada que son tomados como entrada para el reconocedor
automático de voz, H(f) es la respuesta de frecuencia
desconocida del canal de transmisión, S(t,f) son los
espectros de densidad de potencia de corto período de voz limpia y
N(f) es el espectro del ruido aditivo. Usualmente se supone
que H(f) y N(f) son casi constantes o sólo lentamente
variables durante el tiempo
t.
En lo que sigue, se consideran con más detalle
los problemas asociados con la respuesta de frecuencia del canal de
transmisión. Es evidente por sí mismo que el rendimiento de
reconocimiento de un reconocedor automático de voz se degrada si se
usan canales de transmisión variables que tengan diferentes
respuestas de frecuencia. Como ejemplo, pueden obtenerse respuestas
de frecuencia variables del uso de diferentes micrófonos (por
ejemplo, el micrófono interno de un terminal de móvil y el micrófono
de un equipo de manos libres para este terminal de móvil) o la
transmisión de voz por líneas telefónicas que tengan diferentes
respuestas de frecuencia. En general, el problema de un rendimiento
de reconocimiento degradante es debido al hecho de que el
entrenamiento del reconocedor automático de voz es realizado usando
un primer canal de transmisión (por ejemplo, usando el micrófono
interno del terminal de un móvil o usando una primera línea
telefónica) y el reconocedor automático de voz es hecho funcionar
luego usando un canal de transmisión diferente (por ejemplo, usando
un equipo de manos libres o una línea telefónica diferente).
Examinando el espectro de entrada del reconocedor
automático de voz en el dominio espectral logarítmico y despreciando
por el momento la contribución del ruido aditivo N(f), el
producto anterior de H(f) y S(t,f) resulta ser una
suma:
log[Y(t,f)] =
log[IH(f)l^{2}] +
log[S(t,f)]
Por tanto, puede verse que en el dominio
espectral logarítmico los espectros de densidad de potencia
S(t,f) de la voz limpia son desplazados bajo la influencia de
la respuesta de frecuencia H(f) por una desviación constante.
Las tecnologías existentes para compensar la influencia de
diferentes respuestas de frecuencia H(f) intentan eliminar
esta desviación constante.
Como ejemplo, puede mencionarse la tecnología de
compensación de Normalización de la Media Cepstral (CMN) (Y. Gong:
"Reconocimiento de voz en ambientes ruidosos: un estudio",
Comunicación de voz, Vol. 16, pp 261-291, 1995). Una
posible ejecución de la técnica CMN estima la media de cada valor
cepstral sobre una enunciación. Luego esta media es substraída del
valor cepstral en cada trama, describiendo una trama una secuencia
corta de datos de voz. El supuesto planteado por esta técnica es que
el promedio del valor cepstral sobre el intervalo de voz representa
la distorsión de canal. La distorsión de canal es calculada en
general por un promedio cepstral de largo período, que no es
adecuado para aplicaciones en tiempo real. Sin embargo, se han
propuesto también ejecuciones del promedio cepstral de corto
período. Las ejecuciones de corto período suponen que la distorsión
de canal varía lentamente en comparación con la señal de voz.
Otras técnicas de compensación intentan eliminar
la desviación constante mediante un filtrado adaptivo de las
envolventes espectrales de la enunciación real basado en valores
espectrales previos. Una posible ejecución de la técnica de
compensación de filtrado adaptivo es descrita en L. Mauuray:
"Igualación ciega en el dominio cepstral para reconocimiento
robusto de voz basado en el teléfono", Proced. de la conferencia
Eusipco, Rodas, Grecia, pp 359-362, 1998.
De acuerdo con una tercera ejecución de técnicas
para compensar la influencia de respuestas de frecuencia variables
en el rendimiento del reconocimiento, se usa una estima de la
respuesta de frecuencia para adaptar los modelos de referencia
usados en el proceso de ajuste de patrón de reconocimiento
automático de voz. Dicha ejecución es conocida por ejemplo por H. G.
Hirsch: "Adaptación de HMMs en presencia de ruidos aditivo y
convolucional", seminario de IEEE sobre reconocimiento y
comprensión automáticos de voz, Santa Barbara, EE.UU., pp
412-419, 1997. Dada una estima de la respuesta de
frecuencia, los parámetros de Modelos Ocultos de Markov (HMM) usados
en el proceso de ajuste de patrón son adaptados de conformidad con
el enfoque de Combinación Paralela de Modelos (PMC).
Las técnicas para compensar la influencia de las
respuestas de frecuencia variables conocidas en la técnica anterior
adolecen de varios inconvenientes. Como ejemplo, la técnica CMN
puede ser aplicada solamente fuera de línea, es decir, después de
que toda la enunciación haya sido analizada espectralmente. A causa
de esto, el proceso de reconocimiento puede ser iniciado solamente
al final de la enunciación ya que los espectros de voz tienen que
ser almacenados transitoriamente. Esto produce una demora
considerable. Aunque la técnica de compensación de filtrado adaptivo
puede realizarse en línea, esta técnica de compensación usa también
información espectral del pasado para compensar las distorsiones en
la enunciación real. Por último, la técnica de compensación de
adaptar los modelos de voz de referencia basada en una estima de la
respuesta de frecuencia no puede ser aplicada fácilmente en el
contexto del reconocimiento distribuído de voz en que la extracción
de la característica es hecha en terminales separados y en que las
características extraídas son transmitidas luego en forma de datos a
un lugar remoto para ajuste de patrón.
Por consiguiente, hay necesidad de un método, un
dispositivo y un terminal para procesar espectros de voz
distorsionada de corto período que permitan incrementar el
rendimiento del reconocimiento automático de voz.
De acuerdo con la invención, esta necesidad es
satisfecha por un método según la reivindicación 1, un dispositivo
según la reivindicación 14 y un terminal según la reivindicación 16
para procesar datos de voz distorsionada de corto período que son
proporcionados como espectros en el dominio espectral o que son
proporcionados en cualquier dominio que pueda ser derivado del
dominio espectral por una transformada lineal. Por ejemplo, los
datos de voz distorsionada de corto período pueden ser
proporcionados en el dominio cepstral ya que dichos datos de voz
pueden ser obtenidos de datos de voz en el dominio espectral por
medio de una Transformada de Coseno Discreta (DCT). Para un
entendimiento más fácil de la invención, se usa después solamente la
expresión "espectros de voz". Sin embargo, esta referencia a
datos de voz en el dominio espectral puede ser sustituída por una
referencia a cualquier dominio que pueda derivarse del dominio
espectral por una transformada lineal tal como el dominio
cepstral.
A continuación, la expresión "de corto
período" usada en el contexto de espectros de voz denota un
período de tiempo que corresponde a una longitud de trama típica en
un reconocimiento automático de voz, es decir, varios milisegundos.
Los espectros de voz distorsionada de corto período son procesados
preferiblemente en secuencia. Una secuencia de espectros de voz
puede contener todos los espectros de voz de corto período con una
sola enunciación que ha de ser analizada por reconocimiento
automático de voz. Sin embargo, con el fin de estimar la respuesta
de frecuencia no tienen que tenerse en cuenta todos los espectros de
voz de corto período comprendidos dentro de una enunciación. En
muchos casos, será suficiente basar la estimación, por ejemplo, en
cada segundo espectro de voz comprendido dentro de una secuencia de
espectros de voz distorsionada de corto período. En el caso extremo,
la estimación de la respuesta de frecuencia puede ser realizada
usando como entrada un solo espectro o solamente unos pocos
espectros de voz distorsionada de corto período.
De acuerdo con una realización preferida, los
espectros de voz de referencia o cepstras son proporcionados en el
mismo dominio en el que es estimada la respuesta de frecuencia. A
causa de esto, se facilita la estimación de la respuesta de
frecuencia a causa de que una conversión de los espectros de voz de
referencia desde un dominio a otro se hace obsoleta. Por ejemplo, si
los espectros de voz distorsionada son los espectros de densidad de
potencia logarítmica log [Y(t,f)] de una enunciación y si la
respuesta de frecuencia es estimada en el dominio espectral
logarítmico, el conjunto de espectros de voz de referencia puede ser
proporcionado igualmente en forma de espectros de densidad de
potencia logarítmica (S(t,f) en el dominio espectral
logarítmico.
La compensación de los espectros de voz
distorsionada de corto período tiene lugar preferiblemente en el
dominio espectral. Sin embargo, en algunos casos puede resultar
ventajoso realizar la compensación en un dominio que fuera derivado
del dominio espectral por una transformada lineal especialmente
cuando los espectros de voz de referencia no son proporcionados en
el dominio espectral.
La estimación de la respuesta de frecuencia se
hace más exacta si se basa solamente en espectros de voz que
contienen realmente voz. Con este fin, los espectros de voz pueden
ser analizados por medio de una decisión con voz/sin voz para
determinar si con alta probabilidad contienen voz. Si solamente
estos espectros de voz distorsionada que realmente contienen voz,
son procesados ulteriormente con el fin de determinar espectros de
voz de referencia correspondientes, estimando la respuesta de
frecuencia y compensando los espectros de voz distorsionada, puede
incrementarse el rendimiento del reconocimiento.
Preferiblemente, los espectros de voz de
referencia son obtenidos de datos de voz sometidos a una respuesta
de frecuencia conocida o sometidos a una distorsión baja. Si se
encuentran disponibles datos de voz distorsionada sometidos a una
respuesta de frecuencia conocida, el conjunto de espectros de voz de
referencia puede ser generado compensando los datos de voz
distorsionada basándose en la respuesta de frecuencia conocida. Los
datos de voz generados por medio de un equipo de
high-end y sometidos a una distorsión baja pueden
ser convertidos directamente en espectros de voz de referencia sin
ninguna operación de compensación.
El conjunto de espectros de voz de referencia
proporcionado con la finalidad de estimar la respuesta de frecuencia
puede ser producido por ejemplo solamente para este fin y puede ser
almacenado previamente durante la producción del reconocedor
automático de voz en una base de datos separada. Alternativamente,
los espectros de voz que han sido generados con otros fines como
previamente almacenados (por ejemplo, en el caso de reconocimiento
automático de voz independiente del locutor) o entrenados por el
usuario (por ejemplo, en el caso de reconocimiento automático de voz
dependiente del locutor) los espectros de voz de modelo que
constituyen modelos de referencia para reconocimiento automático de
voz pueden ser usados además con la finalidad de estimar la
respuesta de frecuencia.
La respuesta de frecuencia es estimada tomando
como entrada los espectros de voz distorsionada de corto período y
los correspondientes espectros de voz de referencia. Así, antes del
proceso de estimación, tienen que determinarse los espectros de voz
de referencia correspondientes a los espectros de voz distorsionada
de corto período. Esto puede conseguirse de varias maneras. Como
primer ejemplo, los espectros de voz de referencia correspondientes
a los espectros de voz distorsionada pueden ser determinados
hallando los espectros de voz de referencia más próximos a los datos
de voz distorsionada. Esto puede ser realizado calculando la
distancia entre un espectro de voz distorsionado individual y todos
los espectros de voz de referencia del conjunto de espectros de voz
de referencia. El espectro de voz de referencia que tenga la
distancia más pequeña desde el espectro de voz distorsionado es
determinado entonces como el espectro de voz de referencia
correspondiente a este espectro de voz distorsionado. La distancia
entre un espectro de voz de referencia y un espectro de voz
distorsionado puede ser calculada por ejemplo basándose en el error
medio al cuadrado.
Si el conjunto de espectros de voz de referencia
está constituído por los espectros de voz de modelo que forman los
modelos de referencia usados para reconocimiento automático de voz,
un segundo ejemplo para determinar los espectros de voz de
referencia correspondientes a los espectros de voz distorsionada
puede consistir en hallar el modelo de referencia o más modelos de
referencia que ajusten una secuencia de espectros de voz
distorsionada y analizar qué espectro de voz distorsionado ha sido
ajustado durante el ajuste de patrón con el espectro de voz de
modelo. El espectro de voz de modelo de ajuste puede ser determinado
luego como el espectro de voz de referencia que corresponde a este
espectro de voz distorsionado.
De acuerdo con una realización preferida, los
espectros de voz de referencia que corresponde a los espectros de
voz distorsionada son determinados después de que los espectros de
voz distorsionada han sido compensados basándose en una respuesta de
frecuencia previamente estimada. Se ha visto que la determinación de
los espectros de voz de referencia de ajuste resulta ser así más
exacta. Sin embargo, con la finalidad de estimar la respuesta de
frecuencia, se usan otra vez los espectros de voz distorsionada no
compensados.
Después de que se han determinado lo espectros de
voz de referencia que corresponden a los espectros de voz
distorsionada, se estima la respuesta de frecuencia usando como
entrada los espectros de voz distorsionada y los espectros de voz de
referencia correspondientes. Existen varias posibilidades para
estimar la respuesta de frecuencia. De acuerdo con una realización
preferida, la respuesta de frecuencia es estimada basándose en la
diferencia entre los espectros de voz distorsionada y los espectros
de voz de referencia correspondientes. En el dominio espectral
logarítmico, la diferencia puede calcularse simplemente substrayendo
del valor logarítmico del espectro de voz de referencia
correspondiente el valor logarítmico de un espectro de voz
distorsionado. Si se han de usar dos o más espectros de voz
distorsionada como base para estimar la respuesta de frecuencia, la
respuesta de frecuencia puede calcularse hallando el promedio de las
diferencias sobre una pluralidad de espectros de voz distorsionada y
espectros de voz de referencia correspondientes. El promedio puede
ejecutarse sobre una secuencia completa de espectros de voz
distorsionada, es decir, una enunciación completa.
Aunque el concepto de la invención puede
aplicarse también en línea, una secuencia de espectros de voz
distorsionada es compensada preferiblemente basándose en la
respuesta de frecuencia estimada para una secuencia previa de
espectros de voz distorsionada. Dicha técnica de compensación se
basa en el supuesto de que la respuesta de frecuencia no cambia
rápidamente de una secuencia de espectros de voz distorsionada a
otra, es decir, de una enunciación de entrada a la siguiente. A fin
de facilitar una compensación que se base en la respuesta de
frecuencia estimada para una secuencia previa de datos de voz
distorsionada, puede estar prevista una memoria intermedia para
almacenar temporalmente una respuesta de frecuencia estimada. La
memoria intermedia está dispuesta ventajosamente entre la etapa de
procesamiento y la unidad de compensación del dispositivo para
procesar los datos de voz distorsionada.
A fin de reducir la influencia de posibles
estimaciones erróneas, puede usarse una respuesta de frecuencia
actualmente estimada para actualizar una respuesta de frecuencia
previamente estimada. En otras palabras, la respuesta de frecuencia
estimada para una secuencia de espectros de voz distorsionada puede
ser suavizada teniendo en cuenta la respuesta de frecuencia estimada
para una secuencia previa de datos de voz distorsionada. La
respuesta de frecuencia previamente estimada también puede ser
almacenada temporalmente en la memoria intermedia anteriormente
mencionada.
Hasta ahora, la invención se describió en
relación con la compensación de una respuesta de frecuencia en los
espectros de voz distorsionada de corto período. Además de a la
compensación del ruido convolucional la invención se refiere también
a la compensación de ruido aditivo presente en los datos de voz
distorsionada. Preferiblemente, el ruido aditivo es compensado antes
de determinar qué espectros de voz de referencia corresponden a los
espectros de voz distorsionada. Esto quiere decir que los espectros
de voz de entrada distorsionados son sometidos primeramente a una
compensación del ruido aditivo y que los espectros de voz así
compensados son usados subsiguientemente como base para determinar
los espectros de voz de referencia, para estimar la respuesta de
frecuencia y para compensar la respuesta de frecuencia.
El método y el dispositivo descritos en lo que
antecede se emplean preferiblemente en la pare extrema delantera,
por ejemplo, en la etapa de análisis de voz, de un sistema de
reconocimiento automático de voz. Esto quiere decir que al menos la
estimación de la respuesta de frecuencia y la compensación de la
respuesta de frecuencia son realizadas durante o inmediatamente
después de la extracción de características. La etapa de análisis de
voz y una etapa de reconocimiento de voz del sistema de
reconocimiento automático de voz pueden estar dispuestas dentro de
un mismo aparato o dentro de aparatos diferentes. De acuerdo con el
aspecto preferido del reconocimiento distribuído de voz, la etapa de
análisis de voz puede estar dispuesta en un lado terminal del
sistema de reconocimiento distribuído de voz y el ajuste de patrón
puede ser realizado en una etapa central de reconocimiento de voz de
un servidor de red del sistema de reconocimiento distribuído de
voz.
El método anterior puede ser ejecutado por
ejemplo como una solución de equipo físico o como programas
informáticos que comprenden partes de código del producto para
realizar las operaciones individuales del método cuando los
programas informáticos sean hechos funcionar en un sistema de
reconocimiento automático de voz. Los programas informáticos pueden
ser almacenados en un medio de registro legible por ordenador como
soporte de datos unido al mismo o separable del sistema de
reconocimiento automático de voz.
Otras ventajas y detalles de la invención
resultarán evidentes al estudiar la siguiente descripción detallada
de realizaciones preferidas de la invención y con referencia a los
dibujos, en los que:
La figura 1 es un diagrama de bloques de una
primera realización de un dispositivo para procesar espectros de voz
distorsionada de corto período de acuerdo con la invención;
La figura 2 es un diagrama de bloques de una
segunda realización de un dispositivo para procesas espectros de voz
distorsionada de corto período de acuerdo con la invención; y
La figura 3 es un diagrama esquemático de un
sistema de reconocimiento distribuído de voz de acuerdo con la
invención.
En la figura 1 se ilustra una primera realización
de un dispositivo 10 para procesar espectros de voz distorsionada de
corto período para reconocimiento automático de voz. El dispositivo
10 forma parte de un terminal de móvil (por ejemplo, un teléfono
móvil que pueda ser controlado por enunciaciones habladas) y
comprende una etapa de análisis de voz 12 y una etapa de
reconocimiento de voz 14. El dispositivo 10 representado en la
figura 1 está constituído para procesar espectros de voz
distorsionada en forma de secuencias consecutivas, correspondiendo
cada secuencia de espectros de voz distorsionada a una enunciación
individual.
El dispositivo 10 recibe datos de voz
distorsionada que fueron generados a partir de una señal de voz
analógica. En una primera operación, la señal de voz analógica fue
convertida de analógica en digital a una tasa de muestreo de 8 kHz.
La señal de voz digitalizada resultante fue sometida luego a
formación de tramas a fin de generar tramas consecutivas de datos de
voz. La duración de trama es de 25 milisegundos y el intervalo de
desplazamiento, es decir, la diferencia entre los puntos de
iniciación de tramas consecutivas, es de 80 muestras. Los datos de
voz en tramas son convertidos luego desde el dominio de tiempo en el
dominio espectral lineal por medio de una Transformada Rápida de
Fourier (FFT). De este modo, se obtienen los espectros de voz de
corto período de los datos de vos en tramas. Los componentes
requeridos para obtener los espectros de voz de corto período en el
dominio espectral lineal son bien conocidos en la técnica y, por
consiguiente, no se muestran en la figura 1.
Como se representa en la figura 1, los espectros
de voz distorsionada de corto período que fueron convertidos al
dominio espectral lineal son sometidos primeramente a un análisis
espectral de corto período en la banda de frecuencias MEL en un
banco de filtros MEL 20. En el banco de filtros MEL 20 la banda
espectral de lo espectros de voz distorsionada de corto período es
dividida en L subbandas o canales que son equidistantes en el
dominio espectral MEL. Cada subbanda tiene una ventanilla de
frecuencia triangular y subbandas consecutivas se semisolapan. La
cantidad L de subbandas se encuentra típicamente en un margen
comprendido entre 15 y 30.
Detrás del banco de filtros MEL 20 las L
subbandas son procesadas en paralelo. Por razones de simplificación,
las operaciones que siguen al filtrado MEL en el banco de filtros
MEL 20 se describen de manera ilustrativa para una sola
subbanda.
Los espectros de voz distorsionada filtrados con
MEL son alimentados a una unidad opcional de compensación de ruido
aditivo 22 que compensa la influencia del ruido aditivo de fondo
como existe en muchos ambientes, por ejemplo, en un coche. La unidad
de compensación de ruido aditivo 22 elimina así la componente de
ruido aditivo presente en los espectros de voz distorsionada.
La unidad de compensación de ruido aditivo 22
analiza además los espectros de voz distorsionada recibidos del
banco de filtros MEL 20 a fin de tomar una decisión con voz/sin voz.
Mediante la decisión con voz/sin voz puede asegurarse que sean
procesados de manera adicional solamente los espectros de voz
distorsionada que (con una alta probabilidad) contengan voz. La
decisión con voz/sin voz dentro de la unidad de compensación de
ruido aditivo 22 puede derivarse de la energía de voz de corto
período de los datos de voz distorsionada. Antes de la FFT, pueden
calcularse las energías de voz de los espectros de voz distorsionada
y las energías de voz así calculadas pueden compararse dentro de la
unidad de compensación de ruido aditivo 22 con la energía estimada
del ruido de fondo. Se usan espectros de voz distorsionada para
estimar la respuesta de frecuencia sólo si las respectivas energías
de voz se encuentran a un nivel predefinido sobre la energía
estimada del ruido de fondo.
Después de que se han eliminado las componentes
de ruido aditivo dentro de los espectros de voz distorsionada de
corto período y se ha tomado una decisión con voz/sin voz, los
espectros de voz distorsionada se someten a una conversión desde el
dominio espectral lineal al dominio espectral logarítmico por medio
de un bloque de transformadas no lineales 24.
Solamente los espectros de voz distorsionada que
contengan realmente voz son alimentados luego a una etapa de
procesamiento que comprende una unidad de procesamiento individual
26. Concurrentemente, todos los espectros de voz distorsionada son
alimentados a una unidad de compensación 28 del dispositivo 10. En
la unidad de compensación 28 los espectros de voz distorsionada son
compensados basándose en una respuesta de frecuencia estimada en la
unidad de procesamiento 26 sobre la base de una secuencia previa de
datos de voz distorsionada de corto período.
Después de que la unidad de compensación 28
compense la distorsión, los espectros de voz distorsionada de corto
período son sometidos a una Transformada de Coseno Discreta (DCT) en
un bloque de transformadas DCT 30. En el bloque de transformadas DCT
30 se calculan los coeficientes cepstrales de los espectros de voz
compensados en un corto período de tiempo. En otras palabras, los
espectros de voz de corto período son transformados desde el dominio
espectral logarítmico al dominio cepstral o cepstrum.
El ajuste de patrón que permite hallar uno o más
modelos de referencia correspondientes a la secuencia de espectros
de voz de corto período enviados como salida por el bloque de
transformadas DCT 30 es realizado en una unidad de ajuste de patrón
32. La unidad de ajuste de patrón 32 está configurada como un
reconocedor de Viterbi. Alternativamente, la unidad de ajuste de
patrón 32 puede ser una red neural.
Una enunciación es reconocida dentro de la unidad
de ajuste de patrón 32 usando modelos de referencia como HMMs
contenidos en una base de datos de modelos de referencia 34. Por
medio de alineación de Viterbi se ajusta una secuencia individual de
espectros de voz de corto período en el dominio cepstral con los
estados de cada HMM para hallar la secuencia o una secuencia de HMMs
que mejor ajuste la secuencia de espectros de voz de corto período.
Los HMMs correspondientes son enviados subsiguientemente a modo de
salida como resultado de reconocimiento indicado en la figura 1.
A continuación, se describe el proceso de estimar
la respuesta de frecuencia con más detalle y haciendo referencia a
la unidad de procesamiento 26, una base de datos 36 y una memoria
intermedia 38 del dispositivo 10 representado en la figura 1.
Como se ha mencionado previamente, la salida del
bloque de transformadas no lineales 24 no sólo es enviado como
entrada a la unidad de compensación 28 sino que en enviado
concurrentemente como entrada a la unidad de procesamiento 26. La
base de datos 36 está constituída como un libro de códigos de
vectores espectrales y contiene un conjunto de datos de voz de
referencia.
Al ser recibidos los espectros de voz
distorsionada desde el bloque de transformadas no lineales 24, la
unidad de procesamiento 26 determina por separado para cada subbanda
los espectros de voz de referencia correspondientes a los datos de
voz distorsionada. Esto se consigue hallando para cada espectro de
voz distorsionado el correspondiente espectro de voz de referencia
que está más próximo al espectro de voz distorsionado. Con el fin de
hallar un espectro de voz de referencia correspondiente para un
espectro de voz distorsionado, el espectro de voz distorsionado es
compensado primero basándose en una respuesta de frecuencia
previamente estimada, y luego se determina el correspondiente
espectro de voz de referencia basándose en el espectro de voz
compensado. Los espectros de voz de referencia más próximos a un
espectro de voz compensado específico pueden hallarse por ejemplo
por medio de álgebra vectorial bien conocida en la técnica anterior.
Como ejemplo, los espectros de voz de referencia más próximos pueden
ser determinados calculando el error medio al cuadrado sobre todo el
espectro MEL.
La base de datos 36 tiene un tamaño típico de 32,
64 ó 128 entradas. En el caso de un banco de filtros MEL 20 con 24
subbandas (L = 24) y cuantificando cada espectro de voz con un byte,
la base de datos 36, que tiene por ejemplo 64 entradas, requeriría
1.536 bytes de memoria. Los espectros de voz de referencia
contenidos en la base de datos 36 se obtuvieron de espectros de voz
que fueron procesados hasta el bloque de transformadas no lineales
24 como se esboza en lo que antecede con referencia a los datos de
voz distorsionada. Sin embargo, el equipo usado para generar los
espectros de voz de referencia fueron elegidos de tal manera que los
espectros de voz de referencia fueron sometidos solamente a una
distorsión lo más baja posible. Por consiguiente, los espectros de
voz de referencia así generados pueden considerarse como espectros
de voz "limpios".
Después de que la unidad de procesamiento 26 ha
determinado los espectros de voz de referencia correspondientes a
los espectros de voz distorsionada, estima la respuesta de
frecuencia del canal de transmisión actual. La respuesta de
frecuencia es estimada en el dominio algorítmico según
Log [|
H(f) |^{2}] = 1/T \sum\limits_{t}
\{log[Y(t,f)]-log[S(t,f)]\}
en que Y(t,f) representa los
espectros de voz distorsionada de corto período y S(t,f)
representa los espectros de voz de referencia correspondientes
determinados por la unidad de procesamiento 26. La suma sobre t
representa la acumulación de diferencias espectrales entre los
espectros de voz distorsionada y los correspondientes datos de voz
de referencia. El factor 1/T sirve para hallar el promedio o
normalización a la longitud de la secuencia de espectros de voz
distorsionada respectivamente el número de espectros de voz
distorsionada tomados en cuenta. Durante el cálculo del promedio o
normalización solamente se toman en cuenta los espectros de voz que
con alta probabilidad contienen
voz.
Como ha resultado evidente de lo que antecede, la
respuesta de frecuencia H(f) es estimada teniendo en cuenta
los espectros de voz distorsionada formados dentro de una secuencia
de espectros de voz distorsionada de una enunciación individual. La
respuesta de frecuencia estimada para una secuencia de espectros de
voz distorsionada es transferida desde la unidad de procesamiento 26
a la memoria intermedia 38 en que es almacenada temporalmente hasta
que es alimentada a la unidad de compensación 28 una secuencia
siguiente de espectros de voz distorsionada correspondiente a la
siguiente enunciación. En la unidad de compensación 28 una secuencia
actual de espectros de voz distorsionada es compensada luego usando
la respuesta de frecuencia almacenada dentro de la memoria
intermedia 38 y relacionándola con una secuencia previa de espectros
de voz distorsionada.
La compensación de la respuesta de frecuencia
dentro de la unidad de compensación 28 es realizada en el dominio
espectral logarítmico substrayendo la respuesta de frecuencia
estimada para una secuencia previa de espectros de voz desde los
espectros de voz distorsionada de una secuencia actual de espectros
de voz distorsionada de acuerdo con
log[S_{i+1}(t,f)] =
log[Y_{i+1}(t,f)]-log[lH_{i}(f)l^{2}]
en que (i+1) denota la (i+1)ésima
trama de espectros de voz distorsionada e i representa la respuesta
de frecuencia previamente
estimada.
Para reducir la influencia de posibles
estimaciones erróneas la respuesta de frecuencia estimada puede ser
suavizada actualizando recursivamente una respuesta de frecuencia
previamente estimada de acuerdo con
log[lH_{i}(f)l^{2}]
= \alpha\cdot log[lH_{i-1}(f)l^{2}] +
(1-\alpha) \cdot log[lH_{i}(f)
l^{2}]
en que \alpha es un factor menor
pero próximo a 1, i denota la respuesta de frecuencia actualmente
estimada e (i-1) denota la respuesta de frecuencia
previamente estimada. La suavización de la respuesta de frecuencia
es realizada preferiblemente en la unidad de procesamiento
26.
En la figura 2, se ilustra una segunda
realización de un dispositivo 10 para procesar espectros de voz
distorsionada de corto período para reconocimiento automático de
voz. Como el dispositivo 10 de acuerdo con la segunda realización
tiene algunas similitudes con el dispositivo de una primera
realización, elementos correspondientes han sido denotados con los
mismos signos de referencia.
El dispositivo 10 de acuerdo con la segunda
realización se aparta del dispositivo de la primera realización en
que se usa un conjunto diferente de espectros de voz de referencia y
en que hay un enlace adicional 44 entre la etapa de reconocimiento
14 y la etapa de análisis de voz 12.
De acuerdo con la segunda realización
representada en la figura 2, la respuesta de frecuencia es estimada
usando la información espectral que está contenida en los modelos de
referencia (HMM) del sistema de reconocimiento automático de voz.
Así, la base de datos 34 que contiene los HMM predefinidos o de
entrenamiento por el usuario es usada simultáneamente como base de
datos para espectros de voz de referencia. Esto quiere decir que el
conjunto de espectros de voz de referencia está constituído por los
espectros de voz de modelo de los que están formados los HMMs dentro
de la base de datos 34.
De acuerdo con la segunda realización, los
espectros de voz de referencia correspondientes a los espectros de
voz distorsionada son determinados como se indica a
continuación.
Después de haber reconocido una enunciación en la
unidad de ajuste de patrón 32, se usa el ajuste en la alineación de
Viterbi para definir la "mejor" secuencia de estados HMM que
representa los datos de voz de entrada. Se analiza así qué espectros
de voz enviados como entrada a la unidad de ajuste de patrón 32 han
sido ajustados y a qué estado de un HMM individual. Esto se realiza
en el dominio cepstral por medio de la unidad analizadora 40 que
comunica con la unidad de ajuste de patrón 32. Los parámetros
cepstrales del estado de HMM de ajuste son alimentados luego desde
la unidad analizadora 40 a una unidad IDCT 42 que ejecuta una
Transformada de Coseno Discreta inversa (IDCT). Por tanto, los
espectros de voz de referencia son convertidos desde el dominio
cepstral al dominio espectral logarítmico y pueden ser usados
fácilmente por la unidad de procesamiento 26 para estimar la
respuesta de frecuencia. La unidad de procesamiento 26 y la unidad
analizadora 40 constituyen juntas una etapa de procesamiento del
dispositivo 10 representado en la figura 2.
La respuesta de frecuencia es estimada en la
unidad de procesamiento 26 basándose en los espectros de voz de
referencia recibidos de la unidad de IDCT 42 y los correspondientes
espectros de voz distorsionada en el dominio espectral logarítmico.
Otra vez se consideran solamente los espectros de voz que con alta
probabilidad contienen voz. Es necesario almacenar temporalmente los
espectros de voz distorsionada, para lo cual los espectros de voz de
referencia son determinados en la unidad analizadora 40, en la
unidad de procesamiento 26 hasta que los correspondientes espectros
de voz de referencia sean recibidos por la unidad de procesamiento
26 desde la unidad de IDCT 42. Este procedimiento se aplica a toda
la enunciación, y el cálculo del promedio se ejecuta
subsiguientemente sobre todas las estimas de corto período. La
respuesta de frecuencia estimada se usa luego para compensar la
siguiente secuencia de espectros de voz distorsionada como se esbozó
anteriormente con respecto a la primera realización.
En la figura 3 se ilustra una realización de un
sistema de Reconocimiento distribuído de voz (DSR) 100 de acuerdo
con la invención. El DSR 100 comprende un servidor de red 102 que
comunica con una pluralidad de terminales 104 a través de enlaces de
comunicación alámbricos o inalámbricos 106. Los terminales 104
pueden configurarse como teléfonos móviles o teléfonos alámbricos
convencionales.
Cada terminal 104 comprende una etapa de análisis
de voz 12 como se describe en lo que antecede con referencia a las
figuras 1 y 2. Una etapa correspondiente de reconocimiento de voz 14
de acuerdo con las figuras 1 y 2 está situada dentro del servidor de
red 102. Los espectros de voz distorsionada de corto período son
procesados dentro de las etapas de análisis de voz 12 de los
terminales 104 hasta la generación de los coeficientes cepstrales.
Los coeficientes cepstrales son descodificados luego dentro de los
terminales 104 y transmitidos a través de los enlaces de
comunicación 106 al servidor de red 102. El servidor de red 102
descodifica los coeficientes cepstrales recibidos. Basándose en el
ajuste de los coeficientes cepstrales descodificados es realizado un
ajuste de patrones dentro de la etapa de reconocimiento de voz 14
del servidor de red 102. De este modo, se obtiene un resultado de
reconocimiento.
Si el DSR 100 representado en la figura 3
comprende la etapa de análisis de voz 12 y la etapa de
reconocimiento de voz 14 representada en la figura 2, los enlaces de
comunicación 106 tienen que configurarse de tal manera que los
espectros cepstrales de voz de referencia determinados por la etapa
de reconocimiento de voz 14 pueden ser transmitidos de nuevo a los
terminales 104 en que se ejecuta la transformada de IDCT.
Si bien la invención se ha descrito con
referencia a la figura 3 para un sistema de reconocimiento
distribuído de voz, los dispositivos 10 representados en las figuras
1 y 2 pueden estar dispuestos también en un sistema convencional de
reconocimiento automático de voz en que la etapa de análisis de voz
12 y la etapa de reconocimiento de voz 14 estén situadas en el mismo
lugar.
Claims (17)
1. Un método de procesar espectros de voz
distorsionada de corto período para reconocimiento automático de
voz, en el que los datos de voz distorsionada de corto período son
proporcionados en forma de espectros en el dominio espectral o son
proporcionados en cualquier dominio que pueda ser derivado del
dominio espectral por una transformada lineal, que comprende a)
proporcionar un conjunto de datos de voz de referencia en forma de
espectros en el dominio espectral o en cualquier dominio que pueda
ser derivado del dominio espectral por una transformada lineal; b)
determinar los datos de voz de referencia que corresponden a los
datos de voz distorsionada de corto período; c) estimar una
respuesta de frecuencia teniendo en cuenta los datos de voz
distorsionada de corto período y los datos de voz de referencia
correspondientes; d) compensar los datos de voz distorsionada de
corto período basándose en la respuesta de frecuencia estimada.
2. El método según la reivindicación 1, que
comprende además analizar los datos de voz distorsionada por medio
de una decisión con voz/sin voz y ejecutar las operaciones b), c) y
d) de la reivindicación 1 solamente con respecto a los datos de vos
distorsionados que contienen voz.
3. El método según la reivindicación 1 ó 2, en el
que los datos de voz distorsionada son compensados en el dominio
espectral o en cualquier dominio que pueda ser derivado del dominio
espectral por una transformada lineal.
4. El método según una de las reivindicaciones 1
a 3, en el que el conjunto de datos de voz de referencia es obtenido
de los datos de voz sometidos a una respuesta de frecuencia conocida
o sometidos a baja distorsión.
5. El método según una de las reivindicaciones 1
a 4, en el que los datos de voz de referencia correspondientes a los
datos de voz distorsionada son determinados hallando los datos de
voz de referencia más próximos a los datos de voz distorsionada.
6. El método según una de las reivindicaciones 1
a 4, en el que el conjunto de datos de voz de referencia está
constituído por datos de voz de modelo proporcionados en forma de
espectros en el dominio espectral o proporcionados en cualquier
dominio que pueda ser derivado del dominio espectral por una
transformada lineal, de los que están formados los modelos de
referencia para reconocimiento automático de voz.
7. El método según la reivindicación 6, en el que
los datos de voz de referencia correspondientes a los datos de voz
distorsionada son determinados hallando uno o más modelos de
referencia que se ajusten a una secuencia de datos de voz
distorsionada y analizando qué datos de voz de modelo se ajustan a
los datos de voz distorsionada.
8. El método según una de las reivindicaciones 1
a 7, en el que con la finalidad de determinar los datos de voz de
referencia correspondientes a los datos de voz distorsionada, los
datos de voz distorsionada son compensados basándose en una
respuesta de frecuencia previamente estimada.
9. El método según una de las reivindicaciones 1
a 8, en el que la respuesta de frecuencia es estimada basándose en
la diferencia entre los datos de voz distorsionada y los datos de
voz de referencia correspondientes.
10. El método según la reivindicación 9, en el
que la respuesta de frecuencia es estimada hallando el promedio de
las diferencias sobre una pluralidad de datos de voz distorsionada
de corto período y los correspondientes datos de voz de
referencia.
11. El método según una de las reivindicaciones 1
a 10, en el que una secuencia de datos de voz distorsionada es
compensada basándose en la respuesta de frecuencia estimada para una
secuencia previa de datos de voz distorsionada.
12. El método según una de las reivindicaciones 1
a 11, que comprende además suavizar la respuesta de frecuencia
estimada para una secuencia de datos de voz distorsionada teniendo
en cuenta la respuesta de frecuencia estimada para una secuencia
previa de datos de voz distorsionada.
13. El método según una de las reivindicaciones 1
a 12, que comprende además compensar el ruido aditivo en los datos
de voz distorsionada antes de determinar los datos de voz de
referencia.
14. Un dispositivo (10) para procesar datos de
voz distorsionada de corto período para reconocimiento automático de
voz, en el que los datos de voz distorsionada de corto período son
proporcionados en forma de espectros en el dominio espectral o son
proporcionados en cualquier dominio que pueda ser derivado del
dominio espectral por una transformada lineal, que comprende una
base de datos (34, 36) para datos de voz de referencia
proporcionados en forma de espectros en un dominio espectral o
proporcionados en cualquier dominio que pueda ser derivado del
dominio espectral por una transformada lineal; una etapa de
procesamiento (26, 40) para determinar los datos de voz de
referencia correspondientes a los datos de voz distorsionada de
corto período y para estimar una respuesta de frecuencia teniendo en
cuenta los datos de voz distorsionada de corto período y los
correspondientes datos de voz de referencia; una unidad de
compensación (28) para compensar los datos de voz distorsionada de
corto período basándose en la respuesta de frecuencia estimada.
15. El dispositivo según la reivindicación 14,
que comprende además una memoria intermedia (38) para almacenar
temporalmente la respuesta de frecuencia estimada.
16. Un terminal (104) que comprende una etapa de
análisis de voz (12 con una base de datos (34, 36) para datos de voz
de referencia proporcionados en forma de espectros en el dominio
espectral o proporcionados en cualquier dominio que pueda ser
derivado del dominio espectral por una transformada lineal; una
etapa de procesamiento (26) para determinar los datos de voz de
referencia correspondientes a datos de voz distorsionada de corto
período proporcionados en forma de espectros en el dominio espectral
o proporcionados en cualquier dominio que pueda ser derivado del
dominio espectral por una transformada lineal, y para estimar una
respuesta de frecuencia teniendo en cuenta los datos de voz
distorsionada de corto período y los datos de voz de referencia
correspondientes; una unidad de compensación (28) para compensar los
datos de voz distorsionada de corto período basándose en la
respuesta de frecuencia estimada.
17. Un sistema de reconocimiento distribuído de
voz (100) que comprende al menos un terminal (104) de acuerdo con la
reivindicación 16 y un servidor de red (102) con una etapa central
de reconocimiento de voz (14).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01101813A EP1229516A1 (en) | 2001-01-26 | 2001-01-26 | Method, device, terminal and system for the automatic recognition of distorted speech data |
EP01101813 | 2001-01-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2243727T3 true ES2243727T3 (es) | 2005-12-01 |
Family
ID=8176306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02734843T Expired - Lifetime ES2243727T3 (es) | 2001-01-26 | 2002-01-16 | Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados. |
Country Status (6)
Country | Link |
---|---|
US (1) | US20020138252A1 (es) |
EP (2) | EP1229516A1 (es) |
AT (1) | ATE296477T1 (es) |
DE (1) | DE60204282T2 (es) |
ES (1) | ES2243727T3 (es) |
WO (1) | WO2002059872A1 (es) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2506771C2 (de) * | 1975-02-18 | 1983-12-01 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren zur Verbesserung der Sprechererkennung |
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
US4933973A (en) * | 1988-02-29 | 1990-06-12 | Itt Corporation | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
JP2737624B2 (ja) * | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
DE19500494C2 (de) * | 1995-01-10 | 1997-01-23 | Siemens Ag | Merkmalsextraktionsverfahren für ein Sprachsignal |
JP2780676B2 (ja) * | 1995-06-23 | 1998-07-30 | 日本電気株式会社 | 音声認識装置及び音声認識方法 |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
GB9706174D0 (en) * | 1997-03-25 | 1997-11-19 | Secr Defence | Recognition system |
US6044341A (en) * | 1997-07-16 | 2000-03-28 | Olympus Optical Co., Ltd. | Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice |
US6633842B1 (en) * | 1999-10-22 | 2003-10-14 | Texas Instruments Incorporated | Speech recognition front-end feature extraction for noisy speech |
US6574601B1 (en) * | 1999-01-13 | 2003-06-03 | Lucent Technologies Inc. | Acoustic speech recognizer system and method |
EP1096471B1 (en) * | 1999-10-29 | 2004-09-22 | Telefonaktiebolaget LM Ericsson (publ) | Method and means for a robust feature extraction for speech recognition |
US6529872B1 (en) * | 2000-04-18 | 2003-03-04 | Matsushita Electric Industrial Co., Ltd. | Method for noise adaptation in automatic speech recognition using transformed matrices |
US6633843B2 (en) * | 2000-06-08 | 2003-10-14 | Texas Instruments Incorporated | Log-spectral compensation of PMC Gaussian mean vectors for noisy speech recognition using log-max assumption |
-
2001
- 2001-01-26 EP EP01101813A patent/EP1229516A1/en not_active Withdrawn
-
2002
- 2002-01-16 EP EP02734843A patent/EP1354312B1/en not_active Expired - Lifetime
- 2002-01-16 ES ES02734843T patent/ES2243727T3/es not_active Expired - Lifetime
- 2002-01-16 AT AT02734843T patent/ATE296477T1/de not_active IP Right Cessation
- 2002-01-16 DE DE60204282T patent/DE60204282T2/de not_active Expired - Lifetime
- 2002-01-16 WO PCT/EP2002/000394 patent/WO2002059872A1/en not_active Application Discontinuation
- 2002-01-22 US US10/051,462 patent/US20020138252A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP1354312B1 (en) | 2005-05-25 |
WO2002059872A1 (en) | 2002-08-01 |
ATE296477T1 (de) | 2005-06-15 |
DE60204282T2 (de) | 2006-05-24 |
EP1229516A1 (en) | 2002-08-07 |
EP1354312A1 (en) | 2003-10-22 |
US20020138252A1 (en) | 2002-09-26 |
DE60204282D1 (de) | 2005-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2210490C (en) | Spectral subtraction noise suppression method | |
DK1760696T3 (en) | Method and apparatus for improved estimation of non-stationary noise to highlight speech | |
EP1252621B1 (en) | System and method for modifying speech signals | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
JPH10288996A (ja) | 音声認識方法及び音声信号処理装置 | |
BRPI0114706B1 (pt) | método de codificação de voz, sistema receptor e transmissor do sinal de voz para codificar e decodificar o sinal de entrada, decodificador, estação móvel e elemento de rede | |
Bořil et al. | UT-Scope: Towards LVCSR under Lombard effect induced by varying types and levels of noisy background | |
US20050267739A1 (en) | Neuroevolution based artificial bandwidth expansion of telephone band speech | |
US20020062211A1 (en) | Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition | |
Afify et al. | Sequential noise estimation with optimal forgetting for robust speech recognition | |
US8494845B2 (en) | Signal distortion elimination apparatus, method, program, and recording medium having the program recorded thereon | |
Hilger et al. | Quantile based histogram equalization for online applications | |
ES2243727T3 (es) | Metodo, dispositivo, terminal y sistema para el reconocimiento automatico de datos de voz distorsionados. | |
Neumeyer et al. | Training issues and channel equalization techniques for the construction of telephone acoustic models using a high-quality speech corpus | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
Cerisara et al. | α-Jacobian environmental adaptation | |
Kolossa et al. | Recognition of convolutive speech mixtures by missing feature techniques for ICA | |
Thomsen et al. | Speech enhancement and noise-robust automatic speech recognition | |
KR101537653B1 (ko) | 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템 | |
Upadhyay et al. | Bark scaled oversampled WPT based speech recognition enhancement in noisy environments | |
Surendran et al. | Predictive adaptation and compensation for robust speech recognition | |
Raghavan | Speaker and environment adaptation in continuous speech recognition | |
Boril et al. | A study on combined effects of reverberation and increased vocal effort on asr | |
de Veth et al. | Acoustic features and distance measure to reduce vulnerability of ASR performance due to the presence of a communication channel and/or background noise | |
Pujol et al. | Speech recognition experiments with the SPEECON database using several robust front-ends. |