ES2255978T3

ES2255978T3 - Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias.

Info

Publication number: ES2255978T3
Application number: ES00905720T
Authority: ES
Inventors: Philippe Gelin; Jean-Claude Junqua
Original assignee: Panasonic Corp of North America
Current assignee: Panasonic Corp of North America
Priority date: 1999-03-05
Filing date: 2000-01-25
Publication date: 2006-07-16
Anticipated expiration: 2020-01-25
Also published as: JP4745502B2; US6327564B1; DE60025333T2; DE60025333D1; JP2002538514A; EP1163666A4; EP1163666A1; WO2000052683A1; EP1163666B1

Abstract

Método para detectar el habla de una señal de habla de entrada, comprendiendo las etapas de: muestrear la señal de entrada a lo largo de una pluralidad de tramas, teniendo cada una de la pluralidad de tramas una pluralidad de muestras digitales; determinar un espectro de frecuencias (24) para cada una de la pluralidad de tramas; construir un modelo de ruido (26) utilizando espectros de frecuencias de una señal no de habla de la señal de entrada determinando un valor de contenido energético para cada una de una pluralidad de bandas de frecuencia en la al menos una trama tomada de una parte no de habla conocida de la señal de entrada; determinar un valor medio en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con la al menos una trama; determinar un valor de varianza para cada valor medio asociado con la al menos una trama, construyéndose así el modelo de ruido para la señal de habla de entrada; y determinar cuándo una trama desconocida de la pluralidad de tramas está correlacionada con el modelo de ruido determinando un valor M(f) de contenido energético para cada una de una pluralidad de bandas de frecuencia en la trama desconocida; normalizar cada uno de los valores de contenido energético para la trama desconocida con respecto al modelo de ruido; determinar un valor de Chi cuadrado (28) para cada uno de los valores de contenido energético normalizados asociados con la trama desconocida; y comparar el valor de Chi cuadrado con un valor umbral, determinándose así si la trama desconocida está correlacionada con la parte no de habla de la señal de habla de entrada.

Description

Detección del habla utilizando medidas estocásticas de confianza en el espectro de frecuencias.

La presente invención se refiere a un método para detectar el habla de una señal de habla de entrada, del tipo que comprende la etapa de muestrear la señal de habla de entrada a lo largo de una pluralidad de tramas, teniendo cada una de la pluralidad de tramas una pluralidad de muestras digitales.

La tecnología de reconocimiento del habla se utiliza mucho hoy en día. Normalmente, los sistemas de reconocimiento del habla reciben una señal de habla variable en el tiempo representativa de palabras y frases habladas. Estos sistemas intentan determinar las palabras y frases dentro de la señal de habla analizando componentes de la señal de habla. Como una primera etapa, la mayoría de los sistemas de reconocimiento del habla deben aislar primero aquellas partes de la señal que transmiten palabras habladas de aquellas partes no de habla de la señal. A este fin, los sistemas de detección del habla intentan determinar los límites de principio y de final de una palabra o grupo de palabras dentro de la señal de habla. La determinación precisa y fiable de los límites de principio y de final de palabras u oraciones plantea un problema que supone un desafío, particularmente cuando la señal de habla incluye ruido de fondo.

Los sistemas de detección del habla se basan generalmente en diferentes tipos de información encapsulada dentro de la señal de habla para determinar la ubicación de una palabra o grupo de palabras aisladas dentro de la señal. Se ha desarrollado un primer grupo de técnicas de detección del habla para analizar señales de habla utilizando la información del dominio del tiempo de la señal. Normalmente se mide la intensidad o amplitud de la señal de habla. Se designan como habla las partes de la señal de habla que tengan una intensidad mayor que un umbral mínimo; mientras que aquellas partes de la señal de habla que tengan una intensidad inferior al umbral se designan como no habla. Otras técnicas similares se han basado en la detección de fluctuaciones del índice de cruce por cero o de los picos y valles dentro de la señal.

Un segundo grupo de algoritmos de detección del habla se basa en información de señal extraída del dominio de la frecuencia. En estos algoritmos se estima la variación del espectro de frecuencias y la detección se basa en la frecuencia de esta variación calculada a lo largo de tramas sucesivas. Alternativamente, se estima la varianza de la energía en cada banda de frecuencia y la detección de ruido se basa en cuándo estas varianzas se vuelven inferiores a un umbral dado.

Desafortunadamente, estas técnicas de detección del habla han sido poco fiables, particularmente cuando en la señal de habla está presente una componente de ruido variable. Se ha estimado que muchos de los errores que se producen en un sistema de reconocimiento del habla típico son el resultado de una determinación imprecisa de la ubicación de las palabras dentro de la señal de habla. Para minimizar tales errores, la técnica para localizar palabras dentro de la señal de habla debe ser capaz de localizar con fiabilidad y precisión los límites de las palabras. Además, la técnica debe ser lo suficientemente sencilla y rápida como para permitir un procesamiento en tiempo real de la señal de habla. La técnica también debe ser capaz de adaptarse a una variedad de entornos ruidosos sin ningún conocimiento previo del ruido.

En el documento US 5.337.251 se da a conocer un procedimiento para detectar una señal útil afectada por el ruido. Tal como se da a conocer, se toma una medida de la relación señal-ruido esperada a lo largo de una fracción de tiempo. Se toma una medida del ruido blanco estimado a lo largo de otra fracción de tiempo y se calcula la energía media del ruido y de la señal afectada por el ruido, a partir de las cuales puede calcularse un umbral.

En el documento US 5.323.337 se da a conocer un detector de señales que emplea la energía media y la varianza de un contenido energético. Un detector discrimina entre señales que manifiestan ruido y señales que manifiestan información, ambas de las cuales aparecen en una entrada. Las señales se muestrean, y un filtro de Fourier determina el contenido energético para cada muestra de señal. Un procesador determina luego el contenido energético medio y la varianza media del contenido energético en todas las celdas de frecuencia en la muestra de señal.

Según un aspecto de la presente invención, tal como se reivindica en la reivindicación 1, se proporciona un método para detectar el habla de una señal de habla de entrada del tipo anteriormente mencionado, caracterizado por determinar un espectro de frecuencias para cada una de la pluralidad de tramas; construir un modelo de ruido utilizando espectros de frecuencias de una parte no de habla de la señal de entrada; y usar una prueba de hipótesis para determinar cuándo una trama desconocida de la pluralidad de tramas está correlacionada con el modelo de ruido, detectándose así el habla de una señal de habla de entrada.

En una realización preferida, la etapa de construir un modelo de ruido comprende además determinar un valor de contenido energético para cada una de una pluralidad de bandas de frecuencia en al menos diez tramas al comienzo de la señal de habla de entrada; determinar un valor medio en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con las al menos diez tramas; y determinar un valor de varianza para cada valor medio asociado con las al menos diez tramas, construyéndose así el modelo de ruido para la señal de habla de entrada.

La invención se describirá ahora, únicamente a título de ejemplo, con referencia a los dibujos adjuntos, en los que:

La figura 1 es un diagrama de bloques que ilustra los componentes básicos de un sistema de detección del habla;

la figura 2 es un diagrama de flujo que representa una perspectiva general del método de detección del habla que plasma la presente invención;

la figura 3a y la figura 3b son diagramas de flujo detallados que muestran una realización preferida del método de detección del habla de la presente invención;

la figura 4 ilustra la distribución normal de una medida de Chi cuadrado; y

la figura 5 ilustra un espectro medio de ruido (y su varianza) a lo largo de las primeras 100 tramas de una señal de habla de entrada típica.

En la figura 1 se representa un sistema 10 de detección del habla. Normalmente, en primer lugar, una señal de habla de entrada es muestreada digitalmente por un convertidor 12 analógico digital. A continuación, un analizador 14 de frecuencias extrae información del dominio de la frecuencia de la señal muestreada digitalmente. Por último, la infor-
mación del dominio de la frecuencia se emplea para detectar, en un detector 16 de habla, el habla dentro de la señal.

La figura 2 ilustra un método preciso y fiable para detectar el habla de una señal de habla de entrada según la presente invención. Generalmente, se utiliza un enfoque probabilístico para clasificar cada trama de la señal o como habla o como no habla. En particular, un bloque 22 segmenta la señal de habla en una pluralidad de tramas. On experto en la técnica advertirá fácilmente que tal proceso puede realizarse sincrónicamente mientras se graba la señal a fin de no tener ningún retardo en el proceso de detección del habla. Un bloque 24 extrae información del dominio de la frecuencia de cada trama, donde se considera que la información del dominio de la frecuencia para cada banda de frecuencia es una variable aleatoria y se considera que cada trama es un evento de estas variables aleatorias. Empleando la información del dominio de la frecuencia de una parte no de habla de la señal, en un bloque 26 se construye un conjunto conocido de variables aleatorias. De este modo, el conjunto conocido de variables aleatorias es representativo de las componentes de ruido de la señal de habla.

A continuación, se evalúa cada trama desconocida en cuanto a si pertenece o no a este conjunto conocido de variables aleatorias. Para realizar esto, en un bloque 28 se forma una variable aleatoria única (por ejemplo, un valor de Chi cuadrado) a partir del conjunto de variables aleatorias asociadas con una trama desconocida. La variable única se normaliza con respecto al conjunto conocido de variables aleatorias en un bloque 30 y luego se clasifica o como habla o como no habla utilizando la "Prueba de hipótesis" en un bloque 32. De esta manera, cada trama que no pertenece al conjunto conocido de variables aleatorias se clasifica como habla y cada trama que pertenece al conjunto conocido de variables aleatorias se clasifica como no habla.

En relación con las figuras 3A y 3B se proporciona una explicación más detallada del método de detección del habla de la presente invención. La señal analógica correspondiente a la señal de habla (es decir, s (t)) es convertida a forma digital por un convertidor analógico digital, tal como es bien conocido en la técnica, en un bloque 42. A continuación las muestras digitales se segmentan en tramas. Cada trama debe tener una definición temporal. A efectos ilustrativos, la trama se define como una señal de ventana w(n,t) = s(n*desfase+t), donde n = número de tramas, y
t = 1, ..., tamaño de ventana. Tal como le resultará evidente a un experto en la técnica, la trama debería ser lo suficientemente grande como para proporcionar datos suficientes para un análisis de frecuencias y con todo lo suficientemente pequeña como para identificar con precisión los límites de principio y de final de una palabra o grupo de palabras dentro de la señal de habla. En una realización preferida, la señal de habla se muestrea digitalmente a 8 KHz, de manera que cada trama incluye 256 muestras digitales y corresponde a segmentos de 30 ms de la señal de habla.

A continuación, en un bloque 44 se extrae un espectro de frecuencias de cada trama. Puesto que el ruido normalmente se produce a frecuencias específicas, es más interesante representar las tramas de las señales en su dominio de la frecuencia. Normalmente, el espectro de frecuencias se forma aplicando una transformación rápida de Fourier u otra técnica de análisis de frecuencias a cada una de las tramas. En el caso de una transformación rápida de Fourier, el espectro de frecuencias se define como F(n,f) = FFT(w(n,t)), donde n = número de tramas, y f = 1, ..., F. Por consiguiente, la magnitud o valor de contenido energético para cada una de las bandas de frecuencia en una trama particular se define como M(n,f) = abs(F(n,f)).

Utilizando esta información del dominio de la frecuencia de la señal de habla, cada una de las tramas se clasifica entonces o como habla o como no habla. Tal como determina un bloque 46 de decisión, se utilizan al menos las primeras diez tramas de la señal (preferiblemente, 20 tramas) para construir un modelo de ruido, tal como se explicará en detalle posteriormente. Las tramas restantes de la señal se clasifican entonces o como habla o como no habla basándose en una comparación con el modelo de ruido.

Para cada trama, el valor de contenido energético en cada banda de frecuencia se normaliza con respecto al modelo de ruido en un bloque 48. Estos valores se normalizan según:

M_{Norm}(n,f)=\frac{M(n,f)-\mu_{N}(f)}{\sigma_{N}(f)},

donde \mu_{N}(f) y \sigma_{N}(f) son una media y su correspondiente desviación estándar para los valores de contenido energético de las tramas empleadas para construir el modelo de ruido.

Para cada frecuencia f dada, M_{Norm}(n,f) puede considerarse como el evento de la enésima muestra de una variable aleatoria, teniendo R(f) una distribución normal. Suponiendo que las distribuciones normales son independientes, el conjunto de variables aleatorias, R(f) tiene una distribución Chi cuadrado con F grados de libertad. Por tanto, en un bloque 50 se calcula un valor de Chi cuadrado utilizando los valores normalizados de la trama tal como sigue:

X = \sum\limits_{f=1}^{F}M_{Norm}(n,f)^{2}

De esta manera, el valor de Chi cuadrado extrae una sola medida indicativa de la trama.

A continuación, el valor de Chi cuadrado puede normalizarse en un bloque 52 para mejorar más la precisión del sistema de detección del habla. Cuando el grado F de libertad tiende a 4, el valor de Chi cuadrado tiende a una distribución normal. En la presente invención, puesto que es probable que F sobrepase 30 (por ejemplo, en el caso preferido, F = 256), la normalización de X(n), suponiendo la independencia de la hipótesis, se proporciona mediante:

X_{Norm} = \frac{X-F}{\sqrt{2F}},

donde la media y la desviación estándar del valor de Chi cuadrado se estiman como \mu_{x} = F y \sigma_{x} = \sqrt{2F}, respectivamente.

Otra realización preferida de la normalización de Chi cuadrado no ha de tomar en consideración la suposición de independencia de la variable aleatoria, R(f), y ha de normalizar X según sus propias media y varianza estimadas. Para hacer esto, se supone que X sigue siendo una variable aleatoria de Chi cuadrado con sus grados de libertad desconocidos y con todo lo suficientemente grandes como para mantener una aproximación gaussiana de la distribución. Esto da lugar a una estimación de la media \mu_{x} y de la desviación \sigma_{x} para X (también denominado el modelo Chi cuadrado), tal como sigue:

\mu_{x} = \frac{\sum\limits_{n\in N_{Ruido}}X (n)}{\alm{1}(N_{Ruido})}

\hskip1cm

y

\hskip1cm

\sigma_{x} = \sqrt{\frac{\sum_{n\in} N_{Ruido} (X(n)-\mu_{x})^{2}}{\alm{1}(N_{Ruido})-1}}

Normalizar X, tal como se muestra más abajo, da lugar a una desviación normal estándar:

X_{Norm}(n)=\frac{X(n)-\mu_{x}}{\sigma_{x}}

Cada trama puede clasificarse entonces o como habla o como no habla utilizando la Prueba de hipótesis. A fin de probar una trama desconocida, la región crítica se vuelve X_{Norm}(n) \leq X_{a}. Puesto que ésta es una prueba unilateral (es decir, no puede rechazarse el valor más bajo), \alpha es el nivel de confianza. Mediante el uso de la aproximación normal de Chi cuadrado, la prueba se simplifica a X_{Norm} (n) \leq X_{a}.

X_{a} es tal que la integral de -\infty a X_{a} de la distribución normal es igual a 1 - \alpha, tal como se muestra en la figura 4.

Sabiendo que N(z)= \frac{1}{\sqrt{2\pi}}e^{\tfrac{1}{2}x^{2}} y que la función de error se define

como erf(z)= \frac{2}{\sqrt{\pi}}\int\limits_{o}^{x}e^{-1^{2}} dt, 1 - \alpha viene dado por:

1-\alpha=\frac{1 + erf\left(\frac{X_{z}}{\sqrt{2}}\right)}{2}

Al introducir la función inversa de la función de error, x = erfinv(z), de manera que z = erf(x), un valor umbral, X_{a}, para el uso la Prueba de hipótesis se estima preferiblemente como:

X_{x} = \sqrt{2}erfinv(1-2\alpha).

De este modo, el valor umbral puede predefinirse según la precisión deseada del sistema de detección del habla porque sólo depende de \alpha. Por ejemplo, X_{0,01} = 2,3262, X_{0,01} = 1,2816, X_{0,02} = 0,8416.

Con referencia a la figura 3B, cada trama desconocida se clasifica en un bloque 56 de decisión, según X_{Norm}(n) \leq X_{a}. Cuando el valor normalizado de Chi cuadrado para la trama es mayor que el valor umbral predefinido, la trama se clasifica como habla, tal como se muestra en un bloque 58. Cuando el valor normalizado de Chi cuadrado para la trama es menor o igual que el valor umbral predefinido, la trama se clasifica como no habla, tal como se muestra en un bloque 60. En cualquier caso, el procesamiento continúa con la siguiente trama desconocida. Una vez que una trama desconocida se ha clasificado como ruido, también puede emplearse para volver a estimar el modelo de ruido. Por tanto, unos bloques 62 y 64 opcionalmente actualizan el modelo de ruido y actualizan el modelo Chi cuadrado basándose en esta trama.

A partir de las primeras tramas de la señal de habla de entrada se construye un modelo de ruido. La figura 5 ilustra el espectro medio del ruido (y su varianza) a lo largo de las primeras 100 tramas de una señal de habla de entrada típica. Se supone que las primeras diez tramas (aunque, preferiblemente, veinte tramas) de la señal de habla no contienen información de habla, y por tanto estas tramas se utilizan para construir el modelo de ruido. En otras palabras, estas tramas son indicativas del ruido encapsulado a lo largo de la señal de habla. En el caso de que estas tramas contengan información de habla, el método de la presente invención incorpora una salvaguarda adicional que se explicará más adelante. Se contempla que también puedan utilizarse otras partes de la señal de habla que no contengan información de habla para construir el modelo.

Volviendo a la figura 3a, un bloque 66 calcula una media \mu_{N}(f) y una desviación estándar \sigma_{N}(f) de los valores de contenido energético en cada de las bandas de frecuencia de estas tramas. Para cada una de estas veinte primeras tramas, un bloque 69 normaliza el espectro de frecuencias, un bloque 70 calcula una medida de Chi cuadrado, un bloque 72 actualiza ux y ax del modelo de Chi cuadrado con X_{Norm}, y un bloque 74 normaliza la medida de Chi cuadrado. Un experto en la técnica reconocerá fácilmente que X_{Norm} se necesita cuando se evalúa una trama desconocida. Cada una de estas etapas es según la metodología anteriormente descrita.

Puede emplearse una medida de sobreestimación para verificar la validez del modelo de ruido. Cuando hay habla presente en las tramas usadas para construir el modelo de ruido, se produce una sobreestimación del espectro de ruido. Esta sobreestimación puede detectarse cuando el sistema de detección del habla analiza una primera trama de ruido "real". Para detectar una sobreestimación del modelo de ruido, se utiliza la siguiente medida:

D(n)=\sum\limits_{f}M_{norm}(n,f)

Esta medida de sobreestimación emplea el espectro normalizado para mantenerse independiente de la energía total.

En general, la medida de Chi cuadrado es una medida absoluta que da la distancia desde la trama actual hasta el modelo de ruido y, por tanto, será positiva aunque el espectro de la trama actual sea inferior al modelo de ruido. Sin embargo, la medida de sobreestimación será negativa cuando el sistema de detección del habla analice una trama de ruido "real", actualizando así una sobreestimación del modelo de ruido. En la realización preferida del sistema de detección del habla, un número sucesivo de tramas (preferiblemente tres) que tengan un valor negativo para la medida de sobreestimación indicará un modelo de ruido no válido. En este caso, el modelo de ruido volverá a inicializarse, o la detección del habla puede suspenderse para esta señal de habla.

Claims

1. Método para detectar el habla de una señal de habla de entrada, comprendiendo las etapas de:

muestrear la señal de entrada a lo largo de una pluralidad de tramas, teniendo cada una de la pluralidad de tramas una pluralidad de muestras digitales;

determinar un espectro de frecuencias (24) para cada una de la pluralidad de tramas;

construir un modelo de ruido (26) utilizando espectros de frecuencias de una señal no de habla de la señal de entrada determinando un valor de contenido energético para cada una de una pluralidad de bandas de frecuencia en la al menos una trama tomada de una parte no de habla conocida de la señal de entrada;

determinar un valor medio en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con la al menos una trama;

determinar un valor de varianza para cada valor medio asociado con la al menos una trama, construyéndose así el modelo de ruido para la señal de habla de entrada; y

determinar cuándo una trama desconocida de la pluralidad de tramas está correlacionada con el modelo de ruido

determinando un valor M(f) de contenido energético para cada una de una pluralidad de bandas de frecuencia en la trama desconocida;

normalizar cada uno de los valores de contenido energético para la trama desconocida con respecto al modelo de ruido;

determinar un valor de Chi cuadrado (28) para cada uno de los valores de contenido energético normalizados asociados con la trama desconocida; y

comparar el valor de Chi cuadrado con un valor umbral, determinándose así si la trama desconocida está correlacionada con la parte no de habla de la señal de habla de entrada.

2. Método según la reivindicación 1, en el que la etapa de normalizar cada uno de los valores de contenido energético comprende además usar el valor medio y el valor de varianza para normalizar los valores de contenido energético de la trama desconocida.

3. Método según la reivindicación 1, en el que la etapa de comparar el valor de Chi cuadrado comprende además usar un intervalo de confianza predeterminado para determinar el valor umbral.

4. Método según la reivindicación 1, que comprende además las etapas de:

determinar valores de Chi cuadrado (28) para cada trama de la pluralidad de tramas asociadas con la parte no de habla de la señal de habla de entrada;

determinar un valor medio y un valor de varianza para los valores de Chi cuadrado asociados con la parte no de habla de la señal de habla de entrada; y

normalizar el valor de Chi cuadrado (30) para la trama desconocida utilizando el valor medio y el valor de varianza de los valores de Chi cuadrado antes de comparar los valores de Chi cuadrado con el valor umbral.

5. Método según la reivindicación 1, que comprende además la etapa de usar la trama desconocida para verificar la validez del modelo de ruido.

6. Método según la reivindicación 5, en el que la etapa de usar la trama desconocida comprende además usar una medida de sobreestimación según D(n)= \sum\limits_{f}M_{norm}(n,f).

7. Método según la reivindicación 1, en el que el valor umbral se proporciona mediante X_{x}= \sqrt{2}erfinv(1 - 2\alpha).

8. Método según la reivindicación 1, en el que la etapa de normalizar cada uno de los valores de contenido energético comprende además las etapas de:

determinar un valor medio, \mu_{N}(f), en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con las tramas de la parte no de habla de la señal de habla de entrada; y

\newpage

determinar un valor de varianza, \sigma_{N}(f), para cada valor medio asociado con las tramas de la parte no de habla de la señal de entrada, construyéndose así el modelo de ruido a partir de la parte no de habla de la señal de habla de
entrada.

9. Método según la reivindicación 8, en el que la etapa de normalizar cada uno de los valores de contenido energético es según M_{Norm}(n,f) = \frac{M(n,f)-\mu_{N}(f)}{\sigma_{N}(f)}.

10. Método según la reivindicación 1, que comprende además la etapa de normalizar el valor de Chi cuadrado (30), X, para la trama desconocida antes de comparar el valor de Chi cuadrado con el valor umbral, según lo cual la normalización es según X_{Norm}= \frac{X-F}{\sqrt{2F}}, donde F es los grados de libertad para una distribución Chi cuadrado.

11. Método según la reivindicación 1, que comprende además las etapas de:

determinar un valor medio, \mu_{x}, y un valor de varianza, ox, para los valores de Chi cuadrado asociados con la parte no de habla de la señal de habla de entrada; y

normalizar el valor de Chi cuadrado (30) para la trama desconocida utilizando el valor cuadrático medio y el valor de varianza de los valores de Chi cuadrado antes de comparar los valores de Chi cuadrado de la trama desconocida con el valor umbral.

12. Método según la reivindicación 11, en el que la etapa de normalizar el valor de Chi cuadrado es según X_{Norm}(n)= \frac{X(n)-\mu_{x7}}{\sigma_{x}}.

13. Método según la reivindicación 9, que comprende además la etapa de usar la trama desconocida para verificar la validez del modelo de ruido.