ES2255978T3 - Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias. - Google Patents

Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias.

Info

Publication number
ES2255978T3
ES2255978T3 ES00905720T ES00905720T ES2255978T3 ES 2255978 T3 ES2255978 T3 ES 2255978T3 ES 00905720 T ES00905720 T ES 00905720T ES 00905720 T ES00905720 T ES 00905720T ES 2255978 T3 ES2255978 T3 ES 2255978T3
Authority
ES
Spain
Prior art keywords
value
unknown
plot
signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00905720T
Other languages
English (en)
Inventor
Philippe Gelin
Jean-Claude Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp of North America
Original Assignee
Panasonic Corp of North America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp of North America filed Critical Panasonic Corp of North America
Application granted granted Critical
Publication of ES2255978T3 publication Critical patent/ES2255978T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)

Abstract

Método para detectar el habla de una señal de habla de entrada, comprendiendo las etapas de: muestrear la señal de entrada a lo largo de una pluralidad de tramas, teniendo cada una de la pluralidad de tramas una pluralidad de muestras digitales; determinar un espectro de frecuencias (24) para cada una de la pluralidad de tramas; construir un modelo de ruido (26) utilizando espectros de frecuencias de una señal no de habla de la señal de entrada determinando un valor de contenido energético para cada una de una pluralidad de bandas de frecuencia en la al menos una trama tomada de una parte no de habla conocida de la señal de entrada; determinar un valor medio en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con la al menos una trama; determinar un valor de varianza para cada valor medio asociado con la al menos una trama, construyéndose así el modelo de ruido para la señal de habla de entrada; y determinar cuándo una trama desconocida de la pluralidad de tramas está correlacionada con el modelo de ruido determinando un valor M(f) de contenido energético para cada una de una pluralidad de bandas de frecuencia en la trama desconocida; normalizar cada uno de los valores de contenido energético para la trama desconocida con respecto al modelo de ruido; determinar un valor de Chi cuadrado (28) para cada uno de los valores de contenido energético normalizados asociados con la trama desconocida; y comparar el valor de Chi cuadrado con un valor umbral, determinándose así si la trama desconocida está correlacionada con la parte no de habla de la señal de habla de entrada.

Description

Detección del habla utilizando medidas estocásticas de confianza en el espectro de frecuencias.
La presente invención se refiere a un método para detectar el habla de una señal de habla de entrada, del tipo que comprende la etapa de muestrear la señal de habla de entrada a lo largo de una pluralidad de tramas, teniendo cada una de la pluralidad de tramas una pluralidad de muestras digitales.
La tecnología de reconocimiento del habla se utiliza mucho hoy en día. Normalmente, los sistemas de reconocimiento del habla reciben una señal de habla variable en el tiempo representativa de palabras y frases habladas. Estos sistemas intentan determinar las palabras y frases dentro de la señal de habla analizando componentes de la señal de habla. Como una primera etapa, la mayoría de los sistemas de reconocimiento del habla deben aislar primero aquellas partes de la señal que transmiten palabras habladas de aquellas partes no de habla de la señal. A este fin, los sistemas de detección del habla intentan determinar los límites de principio y de final de una palabra o grupo de palabras dentro de la señal de habla. La determinación precisa y fiable de los límites de principio y de final de palabras u oraciones plantea un problema que supone un desafío, particularmente cuando la señal de habla incluye ruido de fondo.
Los sistemas de detección del habla se basan generalmente en diferentes tipos de información encapsulada dentro de la señal de habla para determinar la ubicación de una palabra o grupo de palabras aisladas dentro de la señal. Se ha desarrollado un primer grupo de técnicas de detección del habla para analizar señales de habla utilizando la información del dominio del tiempo de la señal. Normalmente se mide la intensidad o amplitud de la señal de habla. Se designan como habla las partes de la señal de habla que tengan una intensidad mayor que un umbral mínimo; mientras que aquellas partes de la señal de habla que tengan una intensidad inferior al umbral se designan como no habla. Otras técnicas similares se han basado en la detección de fluctuaciones del índice de cruce por cero o de los picos y valles dentro de la señal.
Un segundo grupo de algoritmos de detección del habla se basa en información de señal extraída del dominio de la frecuencia. En estos algoritmos se estima la variación del espectro de frecuencias y la detección se basa en la frecuencia de esta variación calculada a lo largo de tramas sucesivas. Alternativamente, se estima la varianza de la energía en cada banda de frecuencia y la detección de ruido se basa en cuándo estas varianzas se vuelven inferiores a un umbral dado.
Desafortunadamente, estas técnicas de detección del habla han sido poco fiables, particularmente cuando en la señal de habla está presente una componente de ruido variable. Se ha estimado que muchos de los errores que se producen en un sistema de reconocimiento del habla típico son el resultado de una determinación imprecisa de la ubicación de las palabras dentro de la señal de habla. Para minimizar tales errores, la técnica para localizar palabras dentro de la señal de habla debe ser capaz de localizar con fiabilidad y precisión los límites de las palabras. Además, la técnica debe ser lo suficientemente sencilla y rápida como para permitir un procesamiento en tiempo real de la señal de habla. La técnica también debe ser capaz de adaptarse a una variedad de entornos ruidosos sin ningún conocimiento previo del ruido.
En el documento US 5.337.251 se da a conocer un procedimiento para detectar una señal útil afectada por el ruido. Tal como se da a conocer, se toma una medida de la relación señal-ruido esperada a lo largo de una fracción de tiempo. Se toma una medida del ruido blanco estimado a lo largo de otra fracción de tiempo y se calcula la energía media del ruido y de la señal afectada por el ruido, a partir de las cuales puede calcularse un umbral.
En el documento US 5.323.337 se da a conocer un detector de señales que emplea la energía media y la varianza de un contenido energético. Un detector discrimina entre señales que manifiestan ruido y señales que manifiestan información, ambas de las cuales aparecen en una entrada. Las señales se muestrean, y un filtro de Fourier determina el contenido energético para cada muestra de señal. Un procesador determina luego el contenido energético medio y la varianza media del contenido energético en todas las celdas de frecuencia en la muestra de señal.
Según un aspecto de la presente invención, tal como se reivindica en la reivindicación 1, se proporciona un método para detectar el habla de una señal de habla de entrada del tipo anteriormente mencionado, caracterizado por determinar un espectro de frecuencias para cada una de la pluralidad de tramas; construir un modelo de ruido utilizando espectros de frecuencias de una parte no de habla de la señal de entrada; y usar una prueba de hipótesis para determinar cuándo una trama desconocida de la pluralidad de tramas está correlacionada con el modelo de ruido, detectándose así el habla de una señal de habla de entrada.
En una realización preferida, la etapa de construir un modelo de ruido comprende además determinar un valor de contenido energético para cada una de una pluralidad de bandas de frecuencia en al menos diez tramas al comienzo de la señal de habla de entrada; determinar un valor medio en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con las al menos diez tramas; y determinar un valor de varianza para cada valor medio asociado con las al menos diez tramas, construyéndose así el modelo de ruido para la señal de habla de entrada.
La invención se describirá ahora, únicamente a título de ejemplo, con referencia a los dibujos adjuntos, en los que:
La figura 1 es un diagrama de bloques que ilustra los componentes básicos de un sistema de detección del habla;
la figura 2 es un diagrama de flujo que representa una perspectiva general del método de detección del habla que plasma la presente invención;
la figura 3a y la figura 3b son diagramas de flujo detallados que muestran una realización preferida del método de detección del habla de la presente invención;
la figura 4 ilustra la distribución normal de una medida de Chi cuadrado; y
la figura 5 ilustra un espectro medio de ruido (y su varianza) a lo largo de las primeras 100 tramas de una señal de habla de entrada típica.
En la figura 1 se representa un sistema 10 de detección del habla. Normalmente, en primer lugar, una señal de habla de entrada es muestreada digitalmente por un convertidor 12 analógico digital. A continuación, un analizador 14 de frecuencias extrae información del dominio de la frecuencia de la señal muestreada digitalmente. Por último, la infor-
mación del dominio de la frecuencia se emplea para detectar, en un detector 16 de habla, el habla dentro de la señal.
La figura 2 ilustra un método preciso y fiable para detectar el habla de una señal de habla de entrada según la presente invención. Generalmente, se utiliza un enfoque probabilístico para clasificar cada trama de la señal o como habla o como no habla. En particular, un bloque 22 segmenta la señal de habla en una pluralidad de tramas. On experto en la técnica advertirá fácilmente que tal proceso puede realizarse sincrónicamente mientras se graba la señal a fin de no tener ningún retardo en el proceso de detección del habla. Un bloque 24 extrae información del dominio de la frecuencia de cada trama, donde se considera que la información del dominio de la frecuencia para cada banda de frecuencia es una variable aleatoria y se considera que cada trama es un evento de estas variables aleatorias. Empleando la información del dominio de la frecuencia de una parte no de habla de la señal, en un bloque 26 se construye un conjunto conocido de variables aleatorias. De este modo, el conjunto conocido de variables aleatorias es representativo de las componentes de ruido de la señal de habla.
A continuación, se evalúa cada trama desconocida en cuanto a si pertenece o no a este conjunto conocido de variables aleatorias. Para realizar esto, en un bloque 28 se forma una variable aleatoria única (por ejemplo, un valor de Chi cuadrado) a partir del conjunto de variables aleatorias asociadas con una trama desconocida. La variable única se normaliza con respecto al conjunto conocido de variables aleatorias en un bloque 30 y luego se clasifica o como habla o como no habla utilizando la "Prueba de hipótesis" en un bloque 32. De esta manera, cada trama que no pertenece al conjunto conocido de variables aleatorias se clasifica como habla y cada trama que pertenece al conjunto conocido de variables aleatorias se clasifica como no habla.
En relación con las figuras 3A y 3B se proporciona una explicación más detallada del método de detección del habla de la presente invención. La señal analógica correspondiente a la señal de habla (es decir, s (t)) es convertida a forma digital por un convertidor analógico digital, tal como es bien conocido en la técnica, en un bloque 42. A continuación las muestras digitales se segmentan en tramas. Cada trama debe tener una definición temporal. A efectos ilustrativos, la trama se define como una señal de ventana w(n,t) = s(n*desfase+t), donde n = número de tramas, y
t = 1, ..., tamaño de ventana. Tal como le resultará evidente a un experto en la técnica, la trama debería ser lo suficientemente grande como para proporcionar datos suficientes para un análisis de frecuencias y con todo lo suficientemente pequeña como para identificar con precisión los límites de principio y de final de una palabra o grupo de palabras dentro de la señal de habla. En una realización preferida, la señal de habla se muestrea digitalmente a 8 KHz, de manera que cada trama incluye 256 muestras digitales y corresponde a segmentos de 30 ms de la señal de habla.
A continuación, en un bloque 44 se extrae un espectro de frecuencias de cada trama. Puesto que el ruido normalmente se produce a frecuencias específicas, es más interesante representar las tramas de las señales en su dominio de la frecuencia. Normalmente, el espectro de frecuencias se forma aplicando una transformación rápida de Fourier u otra técnica de análisis de frecuencias a cada una de las tramas. En el caso de una transformación rápida de Fourier, el espectro de frecuencias se define como F(n,f) = FFT(w(n,t)), donde n = número de tramas, y f = 1, ..., F. Por consiguiente, la magnitud o valor de contenido energético para cada una de las bandas de frecuencia en una trama particular se define como M(n,f) = abs(F(n,f)).
Utilizando esta información del dominio de la frecuencia de la señal de habla, cada una de las tramas se clasifica entonces o como habla o como no habla. Tal como determina un bloque 46 de decisión, se utilizan al menos las primeras diez tramas de la señal (preferiblemente, 20 tramas) para construir un modelo de ruido, tal como se explicará en detalle posteriormente. Las tramas restantes de la señal se clasifican entonces o como habla o como no habla basándose en una comparación con el modelo de ruido.
Para cada trama, el valor de contenido energético en cada banda de frecuencia se normaliza con respecto al modelo de ruido en un bloque 48. Estos valores se normalizan según:
M_{Norm}(n,f)=\frac{M(n,f)-\mu_{N}(f)}{\sigma_{N}(f)},
donde \mu_{N}(f) y \sigma_{N}(f) son una media y su correspondiente desviación estándar para los valores de contenido energético de las tramas empleadas para construir el modelo de ruido.
Para cada frecuencia f dada, M_{Norm}(n,f) puede considerarse como el evento de la enésima muestra de una variable aleatoria, teniendo R(f) una distribución normal. Suponiendo que las distribuciones normales son independientes, el conjunto de variables aleatorias, R(f) tiene una distribución Chi cuadrado con F grados de libertad. Por tanto, en un bloque 50 se calcula un valor de Chi cuadrado utilizando los valores normalizados de la trama tal como sigue:
X = \sum\limits_{f=1}^{F}M_{Norm}(n,f)^{2}
De esta manera, el valor de Chi cuadrado extrae una sola medida indicativa de la trama.
A continuación, el valor de Chi cuadrado puede normalizarse en un bloque 52 para mejorar más la precisión del sistema de detección del habla. Cuando el grado F de libertad tiende a 4, el valor de Chi cuadrado tiende a una distribución normal. En la presente invención, puesto que es probable que F sobrepase 30 (por ejemplo, en el caso preferido, F = 256), la normalización de X(n), suponiendo la independencia de la hipótesis, se proporciona mediante:
X_{Norm} = \frac{X-F}{\sqrt{2F}},
donde la media y la desviación estándar del valor de Chi cuadrado se estiman como \mu_{x} = F y \sigma_{x} = \sqrt{2F}, respectivamente.
Otra realización preferida de la normalización de Chi cuadrado no ha de tomar en consideración la suposición de independencia de la variable aleatoria, R(f), y ha de normalizar X según sus propias media y varianza estimadas. Para hacer esto, se supone que X sigue siendo una variable aleatoria de Chi cuadrado con sus grados de libertad desconocidos y con todo lo suficientemente grandes como para mantener una aproximación gaussiana de la distribución. Esto da lugar a una estimación de la media \mu_{x} y de la desviación \sigma_{x} para X (también denominado el modelo Chi cuadrado), tal como sigue:
\mu_{x} = \frac{\sum\limits_{n\in N_{Ruido}}X (n)}{\alm{1}(N_{Ruido})}
\hskip1cm
y
\hskip1cm
\sigma_{x} = \sqrt{\frac{\sum_{n\in} N_{Ruido} (X(n)-\mu_{x})^{2}}{\alm{1}(N_{Ruido})-1}}
Normalizar X, tal como se muestra más abajo, da lugar a una desviación normal estándar:
X_{Norm}(n)=\frac{X(n)-\mu_{x}}{\sigma_{x}}
Cada trama puede clasificarse entonces o como habla o como no habla utilizando la Prueba de hipótesis. A fin de probar una trama desconocida, la región crítica se vuelve X_{Norm}(n) \leq X_{a}. Puesto que ésta es una prueba unilateral (es decir, no puede rechazarse el valor más bajo), \alpha es el nivel de confianza. Mediante el uso de la aproximación normal de Chi cuadrado, la prueba se simplifica a X_{Norm} (n) \leq X_{a}.
X_{a} es tal que la integral de -\infty a X_{a} de la distribución normal es igual a 1 - \alpha, tal como se muestra en la figura 4.
Sabiendo que N(z)= \frac{1}{\sqrt{2\pi}}e^{\tfrac{1}{2}x^{2}} y que la función de error se define
como erf(z)= \frac{2}{\sqrt{\pi}}\int\limits_{o}^{x}e^{-1^{2}} dt, 1 - \alpha viene dado por:
1-\alpha=\frac{1 + erf\left(\frac{X_{z}}{\sqrt{2}}\right)}{2}
Al introducir la función inversa de la función de error, x = erfinv(z), de manera que z = erf(x), un valor umbral, X_{a}, para el uso la Prueba de hipótesis se estima preferiblemente como:
X_{x} = \sqrt{2}erfinv(1-2\alpha).
De este modo, el valor umbral puede predefinirse según la precisión deseada del sistema de detección del habla porque sólo depende de \alpha. Por ejemplo, X_{0,01} = 2,3262, X_{0,01} = 1,2816, X_{0,02} = 0,8416.
Con referencia a la figura 3B, cada trama desconocida se clasifica en un bloque 56 de decisión, según X_{Norm}(n) \leq X_{a}. Cuando el valor normalizado de Chi cuadrado para la trama es mayor que el valor umbral predefinido, la trama se clasifica como habla, tal como se muestra en un bloque 58. Cuando el valor normalizado de Chi cuadrado para la trama es menor o igual que el valor umbral predefinido, la trama se clasifica como no habla, tal como se muestra en un bloque 60. En cualquier caso, el procesamiento continúa con la siguiente trama desconocida. Una vez que una trama desconocida se ha clasificado como ruido, también puede emplearse para volver a estimar el modelo de ruido. Por tanto, unos bloques 62 y 64 opcionalmente actualizan el modelo de ruido y actualizan el modelo Chi cuadrado basándose en esta trama.
A partir de las primeras tramas de la señal de habla de entrada se construye un modelo de ruido. La figura 5 ilustra el espectro medio del ruido (y su varianza) a lo largo de las primeras 100 tramas de una señal de habla de entrada típica. Se supone que las primeras diez tramas (aunque, preferiblemente, veinte tramas) de la señal de habla no contienen información de habla, y por tanto estas tramas se utilizan para construir el modelo de ruido. En otras palabras, estas tramas son indicativas del ruido encapsulado a lo largo de la señal de habla. En el caso de que estas tramas contengan información de habla, el método de la presente invención incorpora una salvaguarda adicional que se explicará más adelante. Se contempla que también puedan utilizarse otras partes de la señal de habla que no contengan información de habla para construir el modelo.
Volviendo a la figura 3a, un bloque 66 calcula una media \mu_{N}(f) y una desviación estándar \sigma_{N}(f) de los valores de contenido energético en cada de las bandas de frecuencia de estas tramas. Para cada una de estas veinte primeras tramas, un bloque 69 normaliza el espectro de frecuencias, un bloque 70 calcula una medida de Chi cuadrado, un bloque 72 actualiza ux y ax del modelo de Chi cuadrado con X_{Norm}, y un bloque 74 normaliza la medida de Chi cuadrado. Un experto en la técnica reconocerá fácilmente que X_{Norm} se necesita cuando se evalúa una trama desconocida. Cada una de estas etapas es según la metodología anteriormente descrita.
Puede emplearse una medida de sobreestimación para verificar la validez del modelo de ruido. Cuando hay habla presente en las tramas usadas para construir el modelo de ruido, se produce una sobreestimación del espectro de ruido. Esta sobreestimación puede detectarse cuando el sistema de detección del habla analiza una primera trama de ruido "real". Para detectar una sobreestimación del modelo de ruido, se utiliza la siguiente medida:
D(n)=\sum\limits_{f}M_{norm}(n,f)
Esta medida de sobreestimación emplea el espectro normalizado para mantenerse independiente de la energía total.
En general, la medida de Chi cuadrado es una medida absoluta que da la distancia desde la trama actual hasta el modelo de ruido y, por tanto, será positiva aunque el espectro de la trama actual sea inferior al modelo de ruido. Sin embargo, la medida de sobreestimación será negativa cuando el sistema de detección del habla analice una trama de ruido "real", actualizando así una sobreestimación del modelo de ruido. En la realización preferida del sistema de detección del habla, un número sucesivo de tramas (preferiblemente tres) que tengan un valor negativo para la medida de sobreestimación indicará un modelo de ruido no válido. En este caso, el modelo de ruido volverá a inicializarse, o la detección del habla puede suspenderse para esta señal de habla.

Claims (13)

1. Método para detectar el habla de una señal de habla de entrada, comprendiendo las etapas de:
muestrear la señal de entrada a lo largo de una pluralidad de tramas, teniendo cada una de la pluralidad de tramas una pluralidad de muestras digitales;
determinar un espectro de frecuencias (24) para cada una de la pluralidad de tramas;
construir un modelo de ruido (26) utilizando espectros de frecuencias de una señal no de habla de la señal de entrada determinando un valor de contenido energético para cada una de una pluralidad de bandas de frecuencia en la al menos una trama tomada de una parte no de habla conocida de la señal de entrada;
determinar un valor medio en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con la al menos una trama;
determinar un valor de varianza para cada valor medio asociado con la al menos una trama, construyéndose así el modelo de ruido para la señal de habla de entrada; y
determinar cuándo una trama desconocida de la pluralidad de tramas está correlacionada con el modelo de ruido
determinando un valor M(f) de contenido energético para cada una de una pluralidad de bandas de frecuencia en la trama desconocida;
normalizar cada uno de los valores de contenido energético para la trama desconocida con respecto al modelo de ruido;
determinar un valor de Chi cuadrado (28) para cada uno de los valores de contenido energético normalizados asociados con la trama desconocida; y
comparar el valor de Chi cuadrado con un valor umbral, determinándose así si la trama desconocida está correlacionada con la parte no de habla de la señal de habla de entrada.
2. Método según la reivindicación 1, en el que la etapa de normalizar cada uno de los valores de contenido energético comprende además usar el valor medio y el valor de varianza para normalizar los valores de contenido energético de la trama desconocida.
3. Método según la reivindicación 1, en el que la etapa de comparar el valor de Chi cuadrado comprende además usar un intervalo de confianza predeterminado para determinar el valor umbral.
4. Método según la reivindicación 1, que comprende además las etapas de:
determinar valores de Chi cuadrado (28) para cada trama de la pluralidad de tramas asociadas con la parte no de habla de la señal de habla de entrada;
determinar un valor medio y un valor de varianza para los valores de Chi cuadrado asociados con la parte no de habla de la señal de habla de entrada; y
normalizar el valor de Chi cuadrado (30) para la trama desconocida utilizando el valor medio y el valor de varianza de los valores de Chi cuadrado antes de comparar los valores de Chi cuadrado con el valor umbral.
5. Método según la reivindicación 1, que comprende además la etapa de usar la trama desconocida para verificar la validez del modelo de ruido.
6. Método según la reivindicación 5, en el que la etapa de usar la trama desconocida comprende además usar una medida de sobreestimación según D(n)= \sum\limits_{f}M_{norm}(n,f).
7. Método según la reivindicación 1, en el que el valor umbral se proporciona mediante X_{x}= \sqrt{2}erfinv(1 - 2\alpha).
8. Método según la reivindicación 1, en el que la etapa de normalizar cada uno de los valores de contenido energético comprende además las etapas de:
determinar un valor medio, \mu_{N}(f), en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con las tramas de la parte no de habla de la señal de habla de entrada; y
\newpage
determinar un valor de varianza, \sigma_{N}(f), para cada valor medio asociado con las tramas de la parte no de habla de la señal de entrada, construyéndose así el modelo de ruido a partir de la parte no de habla de la señal de habla de
entrada.
9. Método según la reivindicación 8, en el que la etapa de normalizar cada uno de los valores de contenido energético es según M_{Norm}(n,f) = \frac{M(n,f)-\mu_{N}(f)}{\sigma_{N}(f)}.
10. Método según la reivindicación 1, que comprende además la etapa de normalizar el valor de Chi cuadrado (30), X, para la trama desconocida antes de comparar el valor de Chi cuadrado con el valor umbral, según lo cual la normalización es según X_{Norm}= \frac{X-F}{\sqrt{2F}}, donde F es los grados de libertad para una distribución Chi cuadrado.
11. Método según la reivindicación 1, que comprende además las etapas de:
determinar un valor medio, \mu_{x}, y un valor de varianza, ox, para los valores de Chi cuadrado asociados con la parte no de habla de la señal de habla de entrada; y
normalizar el valor de Chi cuadrado (30) para la trama desconocida utilizando el valor cuadrático medio y el valor de varianza de los valores de Chi cuadrado antes de comparar los valores de Chi cuadrado de la trama desconocida con el valor umbral.
12. Método según la reivindicación 11, en el que la etapa de normalizar el valor de Chi cuadrado es según X_{Norm}(n)= \frac{X(n)-\mu_{x7}}{\sigma_{x}}.
13. Método según la reivindicación 9, que comprende además la etapa de usar la trama desconocida para verificar la validez del modelo de ruido.
ES00905720T 1999-03-05 2000-01-25 Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias. Expired - Lifetime ES2255978T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/263,292 US6327564B1 (en) 1999-03-05 1999-03-05 Speech detection using stochastic confidence measures on the frequency spectrum
US263292 1999-03-05

Publications (1)

Publication Number Publication Date
ES2255978T3 true ES2255978T3 (es) 2006-07-16

Family

ID=23001154

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00905720T Expired - Lifetime ES2255978T3 (es) 1999-03-05 2000-01-25 Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias.

Country Status (6)

Country Link
US (1) US6327564B1 (es)
EP (1) EP1163666B1 (es)
JP (1) JP4745502B2 (es)
DE (1) DE60025333T2 (es)
ES (1) ES2255978T3 (es)
WO (1) WO2000052683A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10120168A1 (de) * 2001-04-18 2002-10-24 Deutsche Telekom Ag Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
US6850602B1 (en) 2002-03-27 2005-02-01 Avaya Technology Corp. Method and apparatus for answering machine detection in automatic dialing
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
US20080033906A1 (en) * 2006-08-03 2008-02-07 Michael Bender Improved performance and availability of a database
EP3118851B1 (en) * 2015-07-01 2021-01-06 Oticon A/s Enhancement of noisy speech based on statistical speech and noise models

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56104399A (en) 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
US5323337A (en) 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5579431A (en) 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
IT1272653B (it) * 1993-09-20 1997-06-26 Alcatel Italia Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso
KR100307065B1 (ko) * 1994-07-18 2001-11-30 마츠시타 덴끼 산교 가부시키가이샤 음성검출장치
JP3453898B2 (ja) * 1995-02-17 2003-10-06 ソニー株式会社 音声信号の雑音低減方法及び装置
JPH0990974A (ja) 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
GB9602700D0 (en) * 1996-02-09 1996-04-10 Canon Kk Pattern matching method and apparatus
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US5950154A (en) * 1996-07-15 1999-09-07 At&T Corp. Method and apparatus for measuring the noise content of transmitted speech
JP3069531B2 (ja) * 1997-03-14 2000-07-24 日本電信電話株式会社 音声認識方法
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method

Also Published As

Publication number Publication date
JP4745502B2 (ja) 2011-08-10
US6327564B1 (en) 2001-12-04
DE60025333T2 (de) 2006-07-13
DE60025333D1 (de) 2006-03-30
JP2002538514A (ja) 2002-11-12
EP1163666A4 (en) 2003-04-16
EP1163666A1 (en) 2001-12-19
WO2000052683A1 (en) 2000-09-08
EP1163666B1 (en) 2006-01-04

Similar Documents

Publication Publication Date Title
CN106531172B (zh) 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
Tanyer et al. Voice activity detection in nonstationary noise
Nemer et al. Robust voice activity detection using higher-order statistics in the LPC residual domain
ES2255978T3 (es) Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias.
US6993481B2 (en) Detection of speech activity using feature model adaptation
Ramírez et al. A new Kullback-Leibler VAD for speech recognition in noise
Giannakopoulos A method for silence removal and segmentation of speech signals, implemented in Matlab
US8175877B2 (en) Method and apparatus for predicting word accuracy in automatic speech recognition systems
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
Yoo et al. Robust voice activity detection using the spectral peaks of vowel sounds
Suthokumar et al. Phoneme specific modelling and scoring techniques for anti spoofing system
De Souza A statistical approach to the design of an adaptive self-normalizing silence detector
Renevey et al. Statistical estimation of unreliable features for robust speech recognition
Sundaram et al. Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach
Torre et al. Noise robust model-based voice activity detection
Ćirović et al. Multimodal speaker verification based on electroglottograph signal and glottal activity detection
JPS6242197A (ja) 音声区間検出方法
Zhang et al. An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection
Gholampour et al. A new fast algorithm for automatic segmentation of continuous speech
Aye Speech recognition using Zero-crossing features
Ahmad et al. An isolated speech endpoint detector using multiple speech features
Mihelič et al. Robust speech detection based on phoneme recognition features
Beritelli A robust endpoint detector based on differential parameters and fuzzy pattern recognition
JPH0682275B2 (ja) 音声認識装置