ES2255978T3 - Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias. - Google Patents
Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias.Info
- Publication number
- ES2255978T3 ES2255978T3 ES00905720T ES00905720T ES2255978T3 ES 2255978 T3 ES2255978 T3 ES 2255978T3 ES 00905720 T ES00905720 T ES 00905720T ES 00905720 T ES00905720 T ES 00905720T ES 2255978 T3 ES2255978 T3 ES 2255978T3
- Authority
- ES
- Spain
- Prior art keywords
- value
- unknown
- plot
- signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 18
- 238000001514 detection method Methods 0.000 title description 22
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000002596 correlated effect Effects 0.000 claims abstract description 5
- 238000009826 distribution Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Machine Translation (AREA)
Abstract
Método para detectar el habla de una señal de habla de entrada, comprendiendo las etapas de: muestrear la señal de entrada a lo largo de una pluralidad de tramas, teniendo cada una de la pluralidad de tramas una pluralidad de muestras digitales; determinar un espectro de frecuencias (24) para cada una de la pluralidad de tramas; construir un modelo de ruido (26) utilizando espectros de frecuencias de una señal no de habla de la señal de entrada determinando un valor de contenido energético para cada una de una pluralidad de bandas de frecuencia en la al menos una trama tomada de una parte no de habla conocida de la señal de entrada; determinar un valor medio en cada una de la pluralidad de bandas de frecuencia para los valores de contenido energético asociados con la al menos una trama; determinar un valor de varianza para cada valor medio asociado con la al menos una trama, construyéndose así el modelo de ruido para la señal de habla de entrada; y determinar cuándo una trama desconocida de la pluralidad de tramas está correlacionada con el modelo de ruido determinando un valor M(f) de contenido energético para cada una de una pluralidad de bandas de frecuencia en la trama desconocida; normalizar cada uno de los valores de contenido energético para la trama desconocida con respecto al modelo de ruido; determinar un valor de Chi cuadrado (28) para cada uno de los valores de contenido energético normalizados asociados con la trama desconocida; y comparar el valor de Chi cuadrado con un valor umbral, determinándose así si la trama desconocida está correlacionada con la parte no de habla de la señal de habla de entrada.
Description
Detección del habla utilizando medidas
estocásticas de confianza en el espectro de frecuencias.
La presente invención se refiere a un método para
detectar el habla de una señal de habla de entrada, del tipo que
comprende la etapa de muestrear la señal de habla de entrada a lo
largo de una pluralidad de tramas, teniendo cada una de la
pluralidad de tramas una pluralidad de muestras digitales.
La tecnología de reconocimiento del habla se
utiliza mucho hoy en día. Normalmente, los sistemas de
reconocimiento del habla reciben una señal de habla variable en el
tiempo representativa de palabras y frases habladas. Estos sistemas
intentan determinar las palabras y frases dentro de la señal de
habla analizando componentes de la señal de habla. Como una primera
etapa, la mayoría de los sistemas de reconocimiento del habla deben
aislar primero aquellas partes de la señal que transmiten palabras
habladas de aquellas partes no de habla de la señal. A este fin,
los sistemas de detección del habla intentan determinar los límites
de principio y de final de una palabra o grupo de palabras dentro
de la señal de habla. La determinación precisa y fiable de los
límites de principio y de final de palabras u oraciones plantea un
problema que supone un desafío, particularmente cuando la señal de
habla incluye ruido de fondo.
Los sistemas de detección del habla se basan
generalmente en diferentes tipos de información encapsulada dentro
de la señal de habla para determinar la ubicación de una palabra o
grupo de palabras aisladas dentro de la señal. Se ha desarrollado
un primer grupo de técnicas de detección del habla para analizar
señales de habla utilizando la información del dominio del tiempo
de la señal. Normalmente se mide la intensidad o amplitud de la
señal de habla. Se designan como habla las partes de la señal de
habla que tengan una intensidad mayor que un umbral mínimo;
mientras que aquellas partes de la señal de habla que tengan una
intensidad inferior al umbral se designan como no habla. Otras
técnicas similares se han basado en la detección de fluctuaciones
del índice de cruce por cero o de los picos y valles dentro de la
señal.
Un segundo grupo de algoritmos de detección del
habla se basa en información de señal extraída del dominio de la
frecuencia. En estos algoritmos se estima la variación del espectro
de frecuencias y la detección se basa en la frecuencia de esta
variación calculada a lo largo de tramas sucesivas.
Alternativamente, se estima la varianza de la energía en cada banda
de frecuencia y la detección de ruido se basa en cuándo estas
varianzas se vuelven inferiores a un umbral dado.
Desafortunadamente, estas técnicas de detección
del habla han sido poco fiables, particularmente cuando en la
señal de habla está presente una componente de ruido variable. Se
ha estimado que muchos de los errores que se producen en un sistema
de reconocimiento del habla típico son el resultado de una
determinación imprecisa de la ubicación de las palabras dentro de
la señal de habla. Para minimizar tales errores, la técnica para
localizar palabras dentro de la señal de habla debe ser capaz de
localizar con fiabilidad y precisión los límites de las palabras.
Además, la técnica debe ser lo suficientemente sencilla y rápida
como para permitir un procesamiento en tiempo real de la señal de
habla. La técnica también debe ser capaz de adaptarse a una
variedad de entornos ruidosos sin ningún conocimiento previo del
ruido.
En el documento US 5.337.251 se da a conocer un
procedimiento para detectar una señal útil afectada por el ruido.
Tal como se da a conocer, se toma una medida de la relación
señal-ruido esperada a lo largo de una fracción de
tiempo. Se toma una medida del ruido blanco estimado a lo largo de
otra fracción de tiempo y se calcula la energía media del ruido y
de la señal afectada por el ruido, a partir de las cuales puede
calcularse un umbral.
En el documento US 5.323.337 se da a conocer un
detector de señales que emplea la energía media y la varianza de un
contenido energético. Un detector discrimina entre señales que
manifiestan ruido y señales que manifiestan información, ambas de
las cuales aparecen en una entrada. Las señales se muestrean, y un
filtro de Fourier determina el contenido energético para cada
muestra de señal. Un procesador determina luego el contenido
energético medio y la varianza media del contenido energético en
todas las celdas de frecuencia en la muestra de señal.
Según un aspecto de la presente invención, tal
como se reivindica en la reivindicación 1, se proporciona un método
para detectar el habla de una señal de habla de entrada del tipo
anteriormente mencionado, caracterizado por determinar un espectro
de frecuencias para cada una de la pluralidad de tramas; construir
un modelo de ruido utilizando espectros de frecuencias de una parte
no de habla de la señal de entrada; y usar una prueba de hipótesis
para determinar cuándo una trama desconocida de la pluralidad de
tramas está correlacionada con el modelo de ruido, detectándose así
el habla de una señal de habla de entrada.
En una realización preferida, la etapa de
construir un modelo de ruido comprende además determinar un valor
de contenido energético para cada una de una pluralidad de bandas
de frecuencia en al menos diez tramas al comienzo de la señal de
habla de entrada; determinar un valor medio en cada una de la
pluralidad de bandas de frecuencia para los valores de contenido
energético asociados con las al menos diez tramas; y determinar un
valor de varianza para cada valor medio asociado con las al menos
diez tramas, construyéndose así el modelo de ruido para la señal de
habla de entrada.
La invención se describirá ahora, únicamente a
título de ejemplo, con referencia a los dibujos adjuntos, en los
que:
La figura 1 es un diagrama de bloques que ilustra
los componentes básicos de un sistema de detección del habla;
la figura 2 es un diagrama de flujo que
representa una perspectiva general del método de detección del habla
que plasma la presente invención;
la figura 3a y la figura 3b son diagramas de
flujo detallados que muestran una realización preferida del método
de detección del habla de la presente invención;
la figura 4 ilustra la distribución normal de una
medida de Chi cuadrado; y
la figura 5 ilustra un espectro medio de ruido (y
su varianza) a lo largo de las primeras 100 tramas de una señal de
habla de entrada típica.
En la figura 1 se representa un sistema 10 de
detección del habla. Normalmente, en primer lugar, una señal de
habla de entrada es muestreada digitalmente por un convertidor 12
analógico digital. A continuación, un analizador 14 de frecuencias
extrae información del dominio de la frecuencia de la señal
muestreada digitalmente. Por último, la infor-
mación del dominio de la frecuencia se emplea para detectar, en un detector 16 de habla, el habla dentro de la señal.
mación del dominio de la frecuencia se emplea para detectar, en un detector 16 de habla, el habla dentro de la señal.
La figura 2 ilustra un método preciso y fiable
para detectar el habla de una señal de habla de entrada según la
presente invención. Generalmente, se utiliza un enfoque
probabilístico para clasificar cada trama de la señal o como habla
o como no habla. En particular, un bloque 22 segmenta la señal de
habla en una pluralidad de tramas. On experto en la técnica
advertirá fácilmente que tal proceso puede realizarse
sincrónicamente mientras se graba la señal a fin de no tener ningún
retardo en el proceso de detección del habla. Un bloque 24 extrae
información del dominio de la frecuencia de cada trama, donde se
considera que la información del dominio de la frecuencia para cada
banda de frecuencia es una variable aleatoria y se considera que
cada trama es un evento de estas variables aleatorias. Empleando la
información del dominio de la frecuencia de una parte no de habla
de la señal, en un bloque 26 se construye un conjunto conocido de
variables aleatorias. De este modo, el conjunto conocido de
variables aleatorias es representativo de las componentes de ruido
de la señal de habla.
A continuación, se evalúa cada trama desconocida
en cuanto a si pertenece o no a este conjunto conocido de
variables aleatorias. Para realizar esto, en un bloque 28 se forma
una variable aleatoria única (por ejemplo, un valor de Chi
cuadrado) a partir del conjunto de variables aleatorias asociadas
con una trama desconocida. La variable única se normaliza con
respecto al conjunto conocido de variables aleatorias en un bloque
30 y luego se clasifica o como habla o como no habla utilizando la
"Prueba de hipótesis" en un bloque 32. De esta manera, cada
trama que no pertenece al conjunto conocido de variables aleatorias
se clasifica como habla y cada trama que pertenece al conjunto
conocido de variables aleatorias se clasifica como no habla.
En relación con las figuras 3A y 3B se
proporciona una explicación más detallada del método de detección
del habla de la presente invención. La señal analógica
correspondiente a la señal de habla (es decir, s (t)) es convertida
a forma digital por un convertidor analógico digital, tal como es
bien conocido en la técnica, en un bloque 42. A continuación las
muestras digitales se segmentan en tramas. Cada trama debe tener
una definición temporal. A efectos ilustrativos, la trama se define
como una señal de ventana w(n,t) = s(n*desfase+t),
donde n = número de tramas, y
t = 1, ..., tamaño de ventana. Tal como le resultará evidente a un experto en la técnica, la trama debería ser lo suficientemente grande como para proporcionar datos suficientes para un análisis de frecuencias y con todo lo suficientemente pequeña como para identificar con precisión los límites de principio y de final de una palabra o grupo de palabras dentro de la señal de habla. En una realización preferida, la señal de habla se muestrea digitalmente a 8 KHz, de manera que cada trama incluye 256 muestras digitales y corresponde a segmentos de 30 ms de la señal de habla.
t = 1, ..., tamaño de ventana. Tal como le resultará evidente a un experto en la técnica, la trama debería ser lo suficientemente grande como para proporcionar datos suficientes para un análisis de frecuencias y con todo lo suficientemente pequeña como para identificar con precisión los límites de principio y de final de una palabra o grupo de palabras dentro de la señal de habla. En una realización preferida, la señal de habla se muestrea digitalmente a 8 KHz, de manera que cada trama incluye 256 muestras digitales y corresponde a segmentos de 30 ms de la señal de habla.
A continuación, en un bloque 44 se extrae un
espectro de frecuencias de cada trama. Puesto que el ruido
normalmente se produce a frecuencias específicas, es más
interesante representar las tramas de las señales en su dominio de
la frecuencia. Normalmente, el espectro de frecuencias se forma
aplicando una transformación rápida de Fourier u otra técnica de
análisis de frecuencias a cada una de las tramas. En el caso de una
transformación rápida de Fourier, el espectro de frecuencias se
define como F(n,f) = FFT(w(n,t)), donde n =
número de tramas, y f = 1, ..., F. Por consiguiente, la magnitud o
valor de contenido energético para cada una de las bandas de
frecuencia en una trama particular se define como M(n,f) =
abs(F(n,f)).
Utilizando esta información del dominio de la
frecuencia de la señal de habla, cada una de las tramas se
clasifica entonces o como habla o como no habla. Tal como determina
un bloque 46 de decisión, se utilizan al menos las primeras diez
tramas de la señal (preferiblemente, 20 tramas) para construir un
modelo de ruido, tal como se explicará en detalle posteriormente.
Las tramas restantes de la señal se clasifican entonces o como
habla o como no habla basándose en una comparación con el modelo de
ruido.
Para cada trama, el valor de contenido energético
en cada banda de frecuencia se normaliza con respecto al modelo de
ruido en un bloque 48. Estos valores se normalizan según:
M_{Norm}(n,f)=\frac{M(n,f)-\mu_{N}(f)}{\sigma_{N}(f)},
donde \mu_{N}(f) y
\sigma_{N}(f) son una media y su correspondiente
desviación estándar para los valores de contenido energético de las
tramas empleadas para construir el modelo de
ruido.
Para cada frecuencia f dada,
M_{Norm}(n,f) puede considerarse como el evento de la
enésima muestra de una variable aleatoria, teniendo R(f) una
distribución normal. Suponiendo que las distribuciones normales son
independientes, el conjunto de variables aleatorias, R(f)
tiene una distribución Chi cuadrado con F grados de libertad. Por
tanto, en un bloque 50 se calcula un valor de Chi cuadrado
utilizando los valores normalizados de la trama tal como sigue:
X =
\sum\limits_{f=1}^{F}M_{Norm}(n,f)^{2}
De esta manera, el valor de Chi cuadrado extrae
una sola medida indicativa de la trama.
A continuación, el valor de Chi cuadrado puede
normalizarse en un bloque 52 para mejorar más la precisión del
sistema de detección del habla. Cuando el grado F de libertad
tiende a 4, el valor de Chi cuadrado tiende a una distribución
normal. En la presente invención, puesto que es probable que F
sobrepase 30 (por ejemplo, en el caso preferido, F = 256), la
normalización de X(n), suponiendo la independencia de la
hipótesis, se proporciona mediante:
X_{Norm} =
\frac{X-F}{\sqrt{2F}},
donde la media y la desviación
estándar del valor de Chi cuadrado se estiman como \mu_{x} = F y
\sigma_{x} = \sqrt{2F},
respectivamente.
Otra realización preferida de la normalización de
Chi cuadrado no ha de tomar en consideración la suposición de
independencia de la variable aleatoria, R(f), y ha de
normalizar X según sus propias media y varianza estimadas. Para
hacer esto, se supone que X sigue siendo una variable aleatoria de
Chi cuadrado con sus grados de libertad desconocidos y con todo lo
suficientemente grandes como para mantener una aproximación
gaussiana de la distribución. Esto da lugar a una estimación de la
media \mu_{x} y de la desviación \sigma_{x} para X (también
denominado el modelo Chi cuadrado), tal como sigue:
\mu_{x} =
\frac{\sum\limits_{n\in N_{Ruido}}X (n)}{\alm{1}(N_{Ruido})}
\hskip1cmy
\hskip1cm\sigma_{x} = \sqrt{\frac{\sum_{n\in} N_{Ruido} (X(n)-\mu_{x})^{2}}{\alm{1}(N_{Ruido})-1}}
Normalizar X, tal como se muestra más abajo, da
lugar a una desviación normal estándar:
X_{Norm}(n)=\frac{X(n)-\mu_{x}}{\sigma_{x}}
Cada trama puede clasificarse entonces o como
habla o como no habla utilizando la Prueba de hipótesis. A fin de
probar una trama desconocida, la región crítica se vuelve
X_{Norm}(n) \leq X_{a}. Puesto que ésta es una prueba
unilateral (es decir, no puede rechazarse el valor más bajo),
\alpha es el nivel de confianza. Mediante el uso de la
aproximación normal de Chi cuadrado, la prueba se simplifica a
X_{Norm} (n) \leq X_{a}.
X_{a} es tal que la integral de -\infty a
X_{a} de la distribución normal es igual a 1 - \alpha, tal como
se muestra en la figura 4.
Sabiendo que N(z)=
\frac{1}{\sqrt{2\pi}}e^{\tfrac{1}{2}x^{2}} y que la función de
error se define
como erf(z)=
\frac{2}{\sqrt{\pi}}\int\limits_{o}^{x}e^{-1^{2}} dt, 1 - \alpha
viene dado por:
1-\alpha=\frac{1 +
erf\left(\frac{X_{z}}{\sqrt{2}}\right)}{2}
Al introducir la función inversa de la función de
error, x = erfinv(z), de manera que z =
erf(x), un valor umbral, X_{a}, para el uso la
Prueba de hipótesis se estima preferiblemente como:
X_{x} =
\sqrt{2}erfinv(1-2\alpha).
De este modo, el valor umbral puede predefinirse
según la precisión deseada del sistema de detección del habla
porque sólo depende de \alpha. Por ejemplo, X_{0,01} = 2,3262,
X_{0,01} = 1,2816, X_{0,02} = 0,8416.
Con referencia a la figura 3B, cada trama
desconocida se clasifica en un bloque 56 de decisión, según
X_{Norm}(n) \leq X_{a}. Cuando el valor normalizado de
Chi cuadrado para la trama es mayor que el valor umbral
predefinido, la trama se clasifica como habla, tal como se muestra
en un bloque 58. Cuando el valor normalizado de Chi cuadrado para
la trama es menor o igual que el valor umbral predefinido, la trama
se clasifica como no habla, tal como se muestra en un bloque 60. En
cualquier caso, el procesamiento continúa con la siguiente trama
desconocida. Una vez que una trama desconocida se ha clasificado
como ruido, también puede emplearse para volver a estimar el modelo
de ruido. Por tanto, unos bloques 62 y 64 opcionalmente actualizan
el modelo de ruido y actualizan el modelo Chi cuadrado basándose en
esta trama.
A partir de las primeras tramas de la señal de
habla de entrada se construye un modelo de ruido. La figura 5
ilustra el espectro medio del ruido (y su varianza) a lo largo de
las primeras 100 tramas de una señal de habla de entrada típica.
Se supone que las primeras diez tramas (aunque, preferiblemente,
veinte tramas) de la señal de habla no contienen información de
habla, y por tanto estas tramas se utilizan para construir el
modelo de ruido. En otras palabras, estas tramas son indicativas
del ruido encapsulado a lo largo de la señal de habla. En el caso
de que estas tramas contengan información de habla, el método de la
presente invención incorpora una salvaguarda adicional que se
explicará más adelante. Se contempla que también puedan utilizarse
otras partes de la señal de habla que no contengan información de
habla para construir el modelo.
Volviendo a la figura 3a, un bloque 66 calcula
una media \mu_{N}(f) y una desviación estándar
\sigma_{N}(f) de los valores de contenido energético en
cada de las bandas de frecuencia de estas tramas. Para cada una de
estas veinte primeras tramas, un bloque 69 normaliza el espectro de
frecuencias, un bloque 70 calcula una medida de Chi cuadrado, un
bloque 72 actualiza ux y ax del modelo de Chi cuadrado con
X_{Norm}, y un bloque 74 normaliza la medida de Chi cuadrado. Un
experto en la técnica reconocerá fácilmente que X_{Norm} se
necesita cuando se evalúa una trama desconocida. Cada una de estas
etapas es según la metodología anteriormente descrita.
Puede emplearse una medida de sobreestimación
para verificar la validez del modelo de ruido. Cuando hay habla
presente en las tramas usadas para construir el modelo de ruido, se
produce una sobreestimación del espectro de ruido. Esta
sobreestimación puede detectarse cuando el sistema de detección del
habla analiza una primera trama de ruido "real". Para detectar
una sobreestimación del modelo de ruido, se utiliza la siguiente
medida:
D(n)=\sum\limits_{f}M_{norm}(n,f)
Esta medida de sobreestimación emplea el espectro
normalizado para mantenerse independiente de la energía total.
En general, la medida de Chi cuadrado es una
medida absoluta que da la distancia desde la trama actual hasta el
modelo de ruido y, por tanto, será positiva aunque el espectro de
la trama actual sea inferior al modelo de ruido. Sin embargo, la
medida de sobreestimación será negativa cuando el sistema de
detección del habla analice una trama de ruido "real",
actualizando así una sobreestimación del modelo de ruido. En la
realización preferida del sistema de detección del habla, un número
sucesivo de tramas (preferiblemente tres) que tengan un valor
negativo para la medida de sobreestimación indicará un modelo de
ruido no válido. En este caso, el modelo de ruido volverá a
inicializarse, o la detección del habla puede suspenderse para esta
señal de habla.
Claims (13)
1. Método para detectar el habla de una señal de
habla de entrada, comprendiendo las etapas de:
muestrear la señal de entrada a lo largo de una
pluralidad de tramas, teniendo cada una de la pluralidad de tramas
una pluralidad de muestras digitales;
determinar un espectro de frecuencias (24) para
cada una de la pluralidad de tramas;
construir un modelo de ruido (26) utilizando
espectros de frecuencias de una señal no de habla de la señal de
entrada determinando un valor de contenido energético para cada una
de una pluralidad de bandas de frecuencia en la al menos una trama
tomada de una parte no de habla conocida de la señal de
entrada;
determinar un valor medio en cada una de la
pluralidad de bandas de frecuencia para los valores de contenido
energético asociados con la al menos una trama;
determinar un valor de varianza para cada valor
medio asociado con la al menos una trama, construyéndose así el
modelo de ruido para la señal de habla de entrada; y
determinar cuándo una trama desconocida de la
pluralidad de tramas está correlacionada con el modelo de ruido
determinando un valor M(f) de contenido
energético para cada una de una pluralidad de bandas de frecuencia
en la trama desconocida;
normalizar cada uno de los valores de contenido
energético para la trama desconocida con respecto al modelo de
ruido;
determinar un valor de Chi cuadrado (28) para
cada uno de los valores de contenido energético normalizados
asociados con la trama desconocida; y
comparar el valor de Chi cuadrado con un valor
umbral, determinándose así si la trama desconocida está
correlacionada con la parte no de habla de la señal de habla de
entrada.
2. Método según la reivindicación 1, en el que la
etapa de normalizar cada uno de los valores de contenido energético
comprende además usar el valor medio y el valor de varianza para
normalizar los valores de contenido energético de la trama
desconocida.
3. Método según la reivindicación 1, en el que la
etapa de comparar el valor de Chi cuadrado comprende además usar un
intervalo de confianza predeterminado para determinar el valor
umbral.
4. Método según la reivindicación 1, que
comprende además las etapas de:
determinar valores de Chi cuadrado (28) para cada
trama de la pluralidad de tramas asociadas con la parte no de habla
de la señal de habla de entrada;
determinar un valor medio y un valor de varianza
para los valores de Chi cuadrado asociados con la parte no de habla
de la señal de habla de entrada; y
normalizar el valor de Chi cuadrado (30) para la
trama desconocida utilizando el valor medio y el valor de varianza
de los valores de Chi cuadrado antes de comparar los valores de Chi
cuadrado con el valor umbral.
5. Método según la reivindicación 1, que
comprende además la etapa de usar la trama desconocida para
verificar la validez del modelo de ruido.
6. Método según la reivindicación 5, en el que la
etapa de usar la trama desconocida comprende además usar una medida
de sobreestimación según D(n)=
\sum\limits_{f}M_{norm}(n,f).
7. Método según la reivindicación 1, en el que el
valor umbral se proporciona mediante X_{x}=
\sqrt{2}erfinv(1 - 2\alpha).
8. Método según la reivindicación 1, en el que la
etapa de normalizar cada uno de los valores de contenido energético
comprende además las etapas de:
determinar un valor medio, \mu_{N}(f),
en cada una de la pluralidad de bandas de frecuencia para los
valores de contenido energético asociados con las tramas de la
parte no de habla de la señal de habla de entrada; y
\newpage
determinar un valor de varianza,
\sigma_{N}(f), para cada valor medio asociado con las
tramas de la parte no de habla de la señal de entrada,
construyéndose así el modelo de ruido a partir de la parte no de
habla de la señal de habla de
entrada.
entrada.
9. Método según la reivindicación 8, en el que la
etapa de normalizar cada uno de los valores de contenido energético
es según M_{Norm}(n,f) =
\frac{M(n,f)-\mu_{N}(f)}{\sigma_{N}(f)}.
10. Método según la reivindicación 1, que
comprende además la etapa de normalizar el valor de Chi cuadrado
(30), X, para la trama desconocida antes de comparar el valor de
Chi cuadrado con el valor umbral, según lo cual la normalización es
según X_{Norm}= \frac{X-F}{\sqrt{2F}}, donde F es
los grados de libertad para una distribución Chi cuadrado.
11. Método según la reivindicación 1, que
comprende además las etapas de:
determinar un valor medio, \mu_{x}, y un
valor de varianza, ox, para los valores de Chi cuadrado asociados
con la parte no de habla de la señal de habla de entrada; y
normalizar el valor de Chi cuadrado (30) para la
trama desconocida utilizando el valor cuadrático medio y el valor
de varianza de los valores de Chi cuadrado antes de comparar los
valores de Chi cuadrado de la trama desconocida con el valor
umbral.
12. Método según la reivindicación 11, en el que
la etapa de normalizar el valor de Chi cuadrado es según
X_{Norm}(n)= \frac{X(n)-\mu_{x7}}{\sigma_{x}}.
13. Método según la reivindicación 9, que
comprende además la etapa de usar la trama desconocida para
verificar la validez del modelo de ruido.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/263,292 US6327564B1 (en) | 1999-03-05 | 1999-03-05 | Speech detection using stochastic confidence measures on the frequency spectrum |
US263292 | 1999-03-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2255978T3 true ES2255978T3 (es) | 2006-07-16 |
Family
ID=23001154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00905720T Expired - Lifetime ES2255978T3 (es) | 1999-03-05 | 2000-01-25 | Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias. |
Country Status (6)
Country | Link |
---|---|
US (1) | US6327564B1 (es) |
EP (1) | EP1163666B1 (es) |
JP (1) | JP4745502B2 (es) |
DE (1) | DE60025333T2 (es) |
ES (1) | ES2255978T3 (es) |
WO (1) | WO2000052683A1 (es) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10120168A1 (de) * | 2001-04-18 | 2002-10-24 | Deutsche Telekom Ag | Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen |
KR100429896B1 (ko) * | 2001-11-22 | 2004-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성신호 검출방법 및 그 장치 |
FR2833103B1 (fr) * | 2001-12-05 | 2004-07-09 | France Telecom | Systeme de detection de parole dans le bruit |
US6850602B1 (en) | 2002-03-27 | 2005-02-01 | Avaya Technology Corp. | Method and apparatus for answering machine detection in automatic dialing |
FR2842643B1 (fr) * | 2002-07-22 | 2004-09-03 | France Telecom | Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur |
US7457747B2 (en) * | 2004-08-23 | 2008-11-25 | Nokia Corporation | Noise detection for audio encoding by mean and variance energy ratio |
KR100677396B1 (ko) * | 2004-11-20 | 2007-02-02 | 엘지전자 주식회사 | 음성인식장치의 음성구간 검출방법 |
US7590529B2 (en) * | 2005-02-04 | 2009-09-15 | Microsoft Corporation | Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement |
US20080033906A1 (en) * | 2006-08-03 | 2008-02-07 | Michael Bender | Improved performance and availability of a database |
EP3118851B1 (en) * | 2015-07-01 | 2021-01-06 | Oticon A/s | Enhancement of noisy speech based on statistical speech and noise models |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56104399A (en) | 1980-01-23 | 1981-08-20 | Hitachi Ltd | Voice interval detection system |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
US4780906A (en) * | 1984-02-17 | 1988-10-25 | Texas Instruments Incorporated | Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal |
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
FR2677828B1 (fr) * | 1991-06-14 | 1993-08-20 | Sextant Avionique | Procede de detection d'un signal utile bruite. |
US5323337A (en) | 1992-08-04 | 1994-06-21 | Loral Aerospace Corp. | Signal detector employing mean energy and variance of energy content comparison for noise detection |
US5579431A (en) | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
US5617508A (en) | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
IT1272653B (it) * | 1993-09-20 | 1997-06-26 | Alcatel Italia | Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso |
KR100307065B1 (ko) * | 1994-07-18 | 2001-11-30 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성검출장치 |
JP3453898B2 (ja) * | 1995-02-17 | 2003-10-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
JPH0990974A (ja) | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
GB9602700D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Pattern matching method and apparatus |
US5809459A (en) * | 1996-05-21 | 1998-09-15 | Motorola, Inc. | Method and apparatus for speech excitation waveform coding using multiple error waveforms |
JP3297307B2 (ja) * | 1996-06-14 | 2002-07-02 | 沖電気工業株式会社 | 背景雑音消去装置 |
US5950154A (en) * | 1996-07-15 | 1999-09-07 | At&T Corp. | Method and apparatus for measuring the noise content of transmitted speech |
JP3069531B2 (ja) * | 1997-03-14 | 2000-07-24 | 日本電信電話株式会社 | 音声認識方法 |
US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
-
1999
- 1999-03-05 US US09/263,292 patent/US6327564B1/en not_active Expired - Fee Related
-
2000
- 2000-01-25 WO PCT/US2000/001798 patent/WO2000052683A1/en active IP Right Grant
- 2000-01-25 ES ES00905720T patent/ES2255978T3/es not_active Expired - Lifetime
- 2000-01-25 DE DE60025333T patent/DE60025333T2/de not_active Expired - Lifetime
- 2000-01-25 JP JP2000603026A patent/JP4745502B2/ja not_active Expired - Fee Related
- 2000-01-25 EP EP00905720A patent/EP1163666B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP4745502B2 (ja) | 2011-08-10 |
US6327564B1 (en) | 2001-12-04 |
DE60025333T2 (de) | 2006-07-13 |
DE60025333D1 (de) | 2006-03-30 |
JP2002538514A (ja) | 2002-11-12 |
EP1163666A4 (en) | 2003-04-16 |
EP1163666A1 (en) | 2001-12-19 |
WO2000052683A1 (en) | 2000-09-08 |
EP1163666B1 (en) | 2006-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106531172B (zh) | 基于环境噪声变化检测的说话人语音回放鉴别方法及系统 | |
KR101437830B1 (ko) | 음성 구간 검출 방법 및 장치 | |
Tanyer et al. | Voice activity detection in nonstationary noise | |
Nemer et al. | Robust voice activity detection using higher-order statistics in the LPC residual domain | |
ES2255978T3 (es) | Deteccion del habla utilizando medidas de confianza en el espectro de frecuencias. | |
US6993481B2 (en) | Detection of speech activity using feature model adaptation | |
Ramírez et al. | A new Kullback-Leibler VAD for speech recognition in noise | |
Giannakopoulos | A method for silence removal and segmentation of speech signals, implemented in Matlab | |
US8175877B2 (en) | Method and apparatus for predicting word accuracy in automatic speech recognition systems | |
KR101250668B1 (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
Yoo et al. | Robust voice activity detection using the spectral peaks of vowel sounds | |
Suthokumar et al. | Phoneme specific modelling and scoring techniques for anti spoofing system | |
De Souza | A statistical approach to the design of an adaptive self-normalizing silence detector | |
Renevey et al. | Statistical estimation of unreliable features for robust speech recognition | |
Sundaram et al. | Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach | |
Torre et al. | Noise robust model-based voice activity detection | |
Ćirović et al. | Multimodal speaker verification based on electroglottograph signal and glottal activity detection | |
JPS6242197A (ja) | 音声区間検出方法 | |
Zhang et al. | An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection | |
Gholampour et al. | A new fast algorithm for automatic segmentation of continuous speech | |
Aye | Speech recognition using Zero-crossing features | |
Ahmad et al. | An isolated speech endpoint detector using multiple speech features | |
Mihelič et al. | Robust speech detection based on phoneme recognition features | |
Beritelli | A robust endpoint detector based on differential parameters and fuzzy pattern recognition | |
JPH0682275B2 (ja) | 音声認識装置 |