ES2371619A1 - Procedimiento de detección de segmentos de voz. - Google Patents
Procedimiento de detección de segmentos de voz. Download PDFInfo
- Publication number
- ES2371619A1 ES2371619A1 ES200930819A ES200930819A ES2371619A1 ES 2371619 A1 ES2371619 A1 ES 2371619A1 ES 200930819 A ES200930819 A ES 200930819A ES 200930819 A ES200930819 A ES 200930819A ES 2371619 A1 ES2371619 A1 ES 2371619A1
- Authority
- ES
- Spain
- Prior art keywords
- threshold
- noise
- voice
- stage
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000001514 detection method Methods 0.000 title abstract description 28
- 230000003595 spectral effect Effects 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000005534 acoustic noise Effects 0.000 claims abstract description 4
- 238000009825 accumulation Methods 0.000 claims abstract description 3
- 230000007704 transition Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000010835 comparative analysis Methods 0.000 claims 2
- 230000008569 process Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Time-Division Multiplex Systems (AREA)
- Noise Elimination (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
La presente invención se refiere a un procedimiento de detección de segmentos de voz y de ruido en una señal digital de audio de entrada, estando dividida dicha señal de entrada en una pluralidad de tramas que comprende:- una primera etapa (10) en la que se realiza una primera clasificación de una trama como ruido si el valor medio de la energía para esta trama y las N tramas anteriores no es superior a un primer umbral de energía, N> 1;- una segunda etapa (20) en la que para cada trama que no ha sido clasificada como ruido en la primera etapa se decide si dicha trama se clasifica como ruido o como voz basándose en combinar al menos un primer criterio de similaridad espectral de la trama con modelos acústicos de ruido y de voz, un segundo criterio de análisis de energía de la trama y un tercer criterio de duración; y en utilizar una máquina de estados para detectar inicio de un segmento como acumulación de un número determinado de tramas consecutivas con parecido acústico superior a un primer umbral y para detectar fin de dicho segmento;- una tercera etapa (30) en la que se revisa la clasificación como voz o como ruido de las tramas de señal llevada a cabo en la segunda etapa utilizando criterios de duración.
Description
Procedimiento de detección de segmentos de
voz.
La presente invención pertenece al área de la
tecnología del habla, particularmente reconocimiento del habla y
verificación del locutor, en concreto a la detección de voz y
ruido.
El reconocimiento automático del habla es una
tarea particularmente complicada. Uno de los motivos es la
dificultad de detectar los comienzos y finales de los segmentos de
voz pronunciados por el usuario, discriminándolos adecuadamente de
los periodos de silencio que se producen antes de que comience a
hablar, después de que termine, y los que resultan de las pausas que
dicho usuario realiza para respirar mientras habla.
La detección y delimitación de los segmentos de
voz pronunciados es fundamental por dos motivos. En primer lugar,
por motivos de eficiencia computacional: los algoritmos utilizados
en reconocimiento del habla son bastante exigentes en lo que a carga
computacional se refiere, por lo que aplicarlos a toda la señal
acústica, sin eliminar los periodos en los que no hay presente voz
del usuario, supondría disparar la carga de procesamiento y, en
consecuencia, provocaría retrasos considerables en la respuesta de
los sistemas de reconocimiento. En segundo lugar, y no menos
importante, por motivos de eficacia: la eliminación de los segmentos
de señal que no contienen voz del usuario, limita considerablemente
el espacio de búsqueda del sistema de reconocimiento, reduciendo
sustancialmente su tasa de error. Por estos motivos, los sistemas
comerciales de reconocimiento automático del habla incorporan un
módulo de detección de segmentos de voz y de ruido.
Como consecuencia de la importancia de la
detección de segmentos de voz, los esfuerzos para conseguir llevar a
cabo esta tarea adecuadamente han sido muy numerosos.
Por ejemplo, la solicitud de patente japonesa
JP-A-9050288 presenta un método de
detección de segmentos de voz. En concreto, se determinan los puntos
de inicio y finalización del segmento de voz mediante la comparación
de la amplitud de la señal de entrada con un umbral. Este método
presenta el inconveniente de que el funcionamiento depende del nivel
de la señal de ruido, por lo que sus resultados no son adecuados en
presencia de ruidos de gran amplitud.
Por su parte, la solicitud de patente japonesa
JP-A-1244497 muestra un método de
detección de segmentos de voz basado en el cálculo de la energía de
la señal. En concreto, se calcula la energía media de las primeras
tramas de voz y utiliza el valor obtenido como estimación de la
energía de la señal de ruido superpuesta a la voz. A continuación,
se detectan los pulsos de voz mediante la comparación de la energía
de cada trama de la señal con un umbral dependiente de la energía de
la señal de ruido estimada. De esta forma, se compensa la posible
variabilidad de valores de energía de la señal de ruido. Sin
embargo, el método no funciona correctamente cuando aparecen
segmentos de ruido de gran amplitud y corta duración.
En la patente estadounidense
US-6317711 también se describe un método de
detección de segmentos de voz. En este caso, para cada trama de
señal se obtiene un vector de características mediante una
parametrización LPC-cepstra y
MEL-cepstra. A continuación, se busca el valor
mínimo de dicho vector y se normalizan todos los elementos de dicho
vector dividiendo su valor por este valor mínimo. Finalmente se
compara el valor de la energía normalizada con un conjunto de
umbrales predeterminados para detectar los segmentos de voz. Este
método ofrece mejores resultados que el anterior, aunque sigue
presentando dificultades para detectar segmentos de voz en
condiciones de ruido desfavorables.
En la patente estadounidense
US-6615170 se presenta un método alternativo de
detección de segmentos de voz que, en lugar de basarse en la
comparación de un parámetro o un vector de parámetros con un umbral
o conjunto de umbrales, se basa en el entrenamiento de modelos
acústicos de ruido y de voz y en la comparación de la señal de
entrada con dichos modelos, determinando si una determinada trama es
voz o ruido mediante la maximización de la máxima verosimilitud.
Aparte de estas patentes y otras similares, el
tratamiento de la tarea de la detección de segmentos de voz y ruido
en la literatura científica es muy extenso, existiendo numerosos
artículos y ponencias que presentan diferentes métodos de llevar a
cabo dicha detección. Así, por ejemplo, en "Voice Activity
Detection Based on Conditional MAP Criterion" (Jong Won Shin,
Hyuk Jin Kwon, Suk Ho Jin, Nam Soo Kim; en IEEE Signal Processing
Letters, ISSN: 1070-9908, Vo. 15, Feb. 2008) se
describe un método de detección de voz basado en una variante del
criterio MAP (maximum a posteriori), que clasifica las tramas
de señal en voz o ruido basándose en parámetros espectrales y
utilizando umbrales diferentes dependiendo de los resultados de
clasificación inmediatamente anteriores.
En lo que respecta al ámbito de la
normalización, cabe destacar la recomendación de un método de
detección de voz incluida en el estándar de la ETSI de
reconocimiento del habla distribuido (ETSI ES 202 050 v1.1.3.
Distributed Speech Recognition; Advanced Front-end
Feature Extraction Algorithm; Compression Algorithms. Technical
Report ETSI ES 202 050, ETSI). El método recomendado en el estándar
se basa en el cálculo de tres parámetros de la señal para cada trama
de la misma y su comparación con tres umbrales correspondientes,
utilizando un conjunto de varias tramas consecutivas para tomar la
decisión voz/ruido final.
Sin embargo, a pesar de la gran cantidad de
métodos propuestos, en la actualidad la tarea de detección de
segmentos de voz sigue presentando importantes dificultades. Los
métodos propuestos hasta el momento, tanto los basados en la
comparación de parámetros con umbrales, como los basados en
clasificación estadística, son insuficientemente robustos en
condiciones desfavorables de ruido, especialmente en presencia de
ruido no estacionario, lo que provoca un aumento de los errores de
detección de segmentos de voz en tales condiciones. Por este motivo,
la utilización de estos métodos en entornos particularmente
ruidosos, como es el caso del interior de automóviles, presenta
importantes problemas.
Es decir, los métodos de detección de segmentos
de voz propuestos hasta el momento, tanto los basados en la
comparación de parámetros de la señal con umbrales como los basados
en comparación estadística, presentan importantes problemas de
robustez en entornos de ruido desfavorables. Particularmente, su
funcionamiento se degrada considerablemente ante la presencia de
ruidos de carácter no estacionario.
Como consecuencia de la falta de robustez en
determinadas condiciones, resulta inviable o particularmente difícil
la utilización de sistemas de reconocimiento automático del habla en
determinados entornos (como por ejemplo, el interior de
automóviles). En estos casos, el empleo de métodos de detección de
segmentos de voz basados en comparación de parámetros de la señal
con umbrales, o bien basados en comparaciones estadísticas, no
proporciona resultados adecuados. En consecuencia, los reconocedores
automáticos del habla obtienen numerosos resultados erróneos, así
como frecuentes rechazos de las pronunciaciones del usuario, lo que
dificulta enormemente la utilización de este tipo de sistemas.
La invención se refiere a un procedimiento de
detección de segmentos de voz de acuerdo con la reivindicación 1.
Realizaciones preferidas del procedimiento se definen en las
reivindicaciones dependientes.
La presente propuesta trata de hacer frente a
tales limitaciones, ofreciendo un procedimiento de detección de
segmentos de voz robusto en entornos ruidosos, incluso en presencia
de ruidos de carácter no estacionario. Para ello, el procedimiento
propuesto se basa en la combinación de tres criterios para tomar la
decisión de clasificar los segmentos de la señal de entrada como voz
o como ruido. En concreto, se utiliza un primer criterio relacionado
con la energía de la señal, basado en la comparación con un umbral.
Como segundo criterio se utiliza una comparación estadística de una
serie de parámetros espectrales de la señal con unos modelos de voz
y de ruido. Y se utiliza un tercer criterio basado en la duración de
los distintos pulsos de voz y ruido, basado en la comparación con un
conjunto de umbrales.
Y el procedimiento de detección de segmentos de
voz propuesto se realiza en tres etapas. En la primera etapa se
descartan las tramas de señal cuya energía no supera un cierto
umbral energético, cuyo valor se actualiza automáticamente en tiempo
real en función del nivel de ruido existente. En la segunda etapa,
las tramas de voz no descartadas se someten a un método de decisión
que combina los tres criterios expuestos para clasificar dichas
tramas como voz o ruido. Finalmente, en la tercera etapa se lleva
cabo una validación de los segmentos de voz y ruido obtenidos según
un criterio de duración, eliminándose los segmentos cuya duración no
supere un cierto umbral.
La combinación de los tres criterios, así como
la realización del procedimiento en las tres etapas propuestas
permite obtener los segmentos de voz y ruido con mayor precisión que
la obtenida con otros métodos, especialmente en condiciones de ruido
desfavorables. Asimismo, esta detección de segmentos se lleva a cabo
en tiempo real y, por tanto, puede aplicarse en sistemas de
reconocimiento automático del habla de carácter interactivo.
La presente invención tiene como objetivo un
procedimiento de detección de segmentos de voz y de ruido en una
señal digital de audio de entrada, estando dividida dicha señal de
entrada en una pluralidad de tramas que comprende:
- -
- una primera etapa en la que se realiza una primera clasificación de una trama como ruido si el valor medio de la energía para esta trama y las N tramas anteriores no es superior a un primer umbral de energía, siendo N un número entero mayor que 1;
- -
- una segunda etapa en la que para cada trama que no ha sido clasificada como ruido en la primera etapa se decide si dicha trama se clasifica como ruido o como voz basándose en combinar al menos un primer criterio de similaridad espectral de la trama con modelos acústicos de ruido y de voz, un segundo criterio de análisis de energía de la trama respecto a un segundo umbral de energía, y un tercer criterio de duración consistente en utilizar una máquina de estados para detectar el inicio de un segmento como acumulación de un número determinado de tramas consecutivas con parecido acústico superior a un primer umbral acústico y otro número determinado de tramas consecutivas con parecido acústico inferior a dicho primer umbral acústico para detectar el fin de dicho segmento;
- -
- una tercera etapa en la que se revisa la clasificación como voz o como ruido de las tramas de señal llevada a cabo en la segunda etapa utilizando criterios de duración, clasificando como ruido los segmentos de voz de duración inferior a un primer umbral de duración mínima de segmento, así como aquellos que no contienen un determinado número de tramas consecutivas que simultáneamente superan dicho umbral acústico y dicho segundo umbral de energía.
\vskip1.000000\baselineskip
Es decir, el procedimiento de la invención se
realiza en tres etapas: una primera basada en umbral de energía, una
segunda etapa de decisión multicriterio y una tercera de
comprobación de duraciones.
La toma de decisión de la segunda etapa está
basada en:
- -
- Por un lado, la utilización simultánea de tres criterios: similaridad espectral, valor energético y duración (es necesario un mínimo número de tramas consecutivas similares espectralmente al modelo de ruido al final del segmento para dar éste por terminado).
- -
- Por otro, la utilización de diferentes estados, lo que introduce cierta histéresis tanto para detectar el comienzo del segmento (hace falta acumular varias tramas con parecido acústico superior al umbral) como para el final del mismo (histéresis).
\vskip1.000000\baselineskip
Esto hace que mejore el funcionamiento
eliminando falsos principios y finales de segmento.
En la tercera etapa se utilizan preferiblemente
dos umbrales de duración:
- -
- Un primer umbral de duración mínima de segmento.
- -
- Un segundo umbral de duración de tramas consecutivas que cumplen tanto el criterio de similaridad acústica como el de energía mínima.
\vskip1.000000\baselineskip
La utilización de este doble umbral mejora
frente a ruidos impulsivos y balbuceos del usuario.
La invención puede utilizarse como parte de un
sistema de reconocimiento del habla. También puede utilizarse como
parte de un sistema de identificación o verificación del locutor, o
bien como parte de un sistema de detección acústica del idioma o de
indexado acústico de contenidos multimedia.
La utilización de los criterios de duración,
tanto en la segunda como en la tercera etapa, hace que el
procedimiento clasifique correctamente ruidos de carácter no
estacionario y balbuceos del usuario, algo que no consiguen hacer
los procedimientos conocidos hasta el momento: los criterios basados
en umbrales energéticos no son capaces de discriminar los ruidos no
estacionarios con altos valores de energía, mientras que los
criterios basados en comparación de características acústicas (sean
en el dominio del tiempo, sean en el dominio espectral) no son
capaces de discriminar sonidos guturales y balbuceos del usuario,
dado su parecido acústico con los segmentos de voz. Sin embargo, la
combinación de similaridad espectral y energía permite discriminar
un mayor número de este tipo de ruidos de los segmentos de voz. Y el
empleo de criterios de duración permite evitar que los segmentos de
señal con este tipo de ruidos sean clasificados erróneamente como
segmentos de voz.
Por otra parte, el modo en que se combinan los
tres criterios en las etapas descritas del procedimiento optimiza la
capacidad de clasificar correctamente los segmentos de voz y ruido.
En concreto, la aplicación de un primer umbral de energía evita que
segmentos con bajo contenido energético se tengan en cuenta en la
comparación acústica. De esta forma, se evitan resultados
impredecibles, algo habitual en procedimientos de detección basados
en comparación acústica que no filtran este tipo de segmentos, así
como los que comparan un vector de características mixto, con
características espectrales y energéticas. La utilización de un
segundo umbral de energía, evita que en la primera etapa se eliminen
segmentos de voz con niveles bajos de energía, ya que permite
utilizar un primer umbral energético poco restrictivo, que elimine
sólo los segmentos de ruido con muy bajo nivel de energía, dejándose
la eliminación de segmentos de ruido de mayor potencia para la
segunda etapa, en la que interviene el segundo umbral energético,
más restrictivo. La utilización combinada de los umbrales acústicos
y energético en la segunda etapa permite discriminar los segmentos
de ruido de los de voz: por un lado, la exigencia de superar ambos
umbrales evita clasificar como voz los segmentos de ruido de alta
energía pero con características espectrales diferentes de la voz
(ruidos no estacionarios, como golpes o chasquidos) y los segmentos
de ruido similares acústicamente a la voz pero con baja energía
(balbuceos y sonidos guturales); por otro lado, la utilización de
dos comparaciones independientes en lugar de un vector de
características mixto (acústico y energético) permite ajustar el
procedimiento de detección. El empleo de criterios de duración en
esta segunda etapa (necesidad de superar un umbral de puntuaciones
acústicas acumuladas al inicio del segmento de voz, y de concatenar
un número mínimo de tramas de señal de ruido al final del mismo),
permite detectar como ruido los segmentos de señal con ruidos no
estacionarios de corta duración, así como clasificar como voz los
segmentos correspondientes a sonidos que, aun siendo voz, tienen
menor sonoridad, como es el caso de los fonemas correspondientes a
consonantes oclusivas y fricativas (k, t, s,...). Finalmente, el
empleo de la tercera etapa permite hacer un filtrado final,
eliminando los segmentos de ruido que han sido clasificados como voz
pero no alcanzan la duración mínima, corrigiendo los errores de las
dos primeras etapas del procedimiento con un método diferente
respecto a todos los utilizados en otros procedimientos.
La correcta clasificación de los tramos de señal
con ruidos de energía alta y con balbuceos, hace que el
procedimiento se puede emplear en sistemas de reconocimiento en
diferentes entornos: oficina, hogar, interior de automóviles, etc.,
y con diferentes canales de utilización (microfónico o telefónico).
Asimismo, es aplicable en diferentes tipos de aplicaciones vocales:
servicios vocales de información, control vocal de equipos, etc.
Para complementar la descripción que se está
realizando y con objeto de ayudar a una mejor comprensión de las
características de la invención, a continuación se pasa a describir
de manera breve un modo de realización de la invención, como ejemplo
ilustrativo y no limitativo de ésta.
La Figura 1 representa un diagrama de bloques
del procedimiento de detección de segmentos de voz.
La Figura 2 muestra un diagrama de estados del
proceso de clasificación de tramas de voz y ruido.
La Figura 3 muestra el procedimiento de
comprobación de tramas que cumplen simultáneamente umbrales acústico
y energético.
La Figura 4 representa el Diagrama de flujo de
la validación de umbrales de duración.
De acuerdo con la realización preferida de la
invención, el procedimiento de detección de segmentos de voz y ruido
se lleva a cabo en tres etapas.
Como paso previo al procedimiento se divide la
señal de entrada en tramas de muy corta duración (entre 5 y 50
milisegundos), que son procesadas una tras otra.
Como se muestra en la figura 1, en una primera
etapa 10, para cada trama 1 se calcula su energía. Se calcula
(bloque 11: cálculo energía media N últimas tramas) el promedio del
valor de la energía para esta trama y las N tramas anteriores,
siendo N un número entero cuyos valores varían dependiendo del
entorno; típicamente N=10 en entornos poco ruidosos y N>10 para
entornos ruidosos. Tras ello, se compara (bloque 12: validación
umbral de energía media) este valor medio con un primer umbral de
energía Umbral_energ1, cuyo valor es modificado en la segunda etapa
en función del nivel de ruido, y siendo configurable el valor
inicial del mismo; típicamente, para tramas de 10 ms,
Umbral_energ1=15, valor que puede ajustarse según la aplicación. Si
el valor medio de energía de las últimas tramas no supera dicho
primer umbral de energía Umbral_energ1, la trama es clasificada
definitivamente como ruido y se finaliza el procesado de la misma,
comenzando el proceso de la siguiente trama de la señal. Si, por el
contrario, el valor medio sí supera dicho primer umbral de energía,
la trama continúa procesándose, pasando a la segunda etapa 20 del
procedimiento.
En la segunda etapa 20 se realizan dos
procesos:
- una comparación estadística de la trama que se
está procesando con unos modelos acústicos de voz y de ruido (bloque
21: comparación estadística con modelos acústicos (algoritmo
Viterbi)), y
- un proceso de clasificación de la trama
(bloque 22: clasificación de tramas) como voz o ruido (véase figura
2).
\vskip1.000000\baselineskip
Para llevar a cabo la comparación estadística,
se obtiene en primer lugar un vector de características consistente
en un conjunto de parámetros espectrales obtenidos a partir de la
señal. En concreto, se selecciona un subconjunto de los parámetros
que componen el vector de características propuesto en el estándar
ETSI ES 202 050.
A continuación se describe cómo se realiza la
selección del subconjunto de parámetros:
- Se estiman en primer lugar las funciones
densidad de probabilidad del valor de cada uno de los parámetros
para las tramas de voz y las de ruido, a partir de los valores del
parámetro obtenidos con un conjunto de señales acústicas de voz y
ruido distintas de las que se van a analizar.
- Haciendo uso de las funciones densidad de
probabilidad estimadas, se calcula la probabilidad de error de
clasificación de cada parámetro.
- Se crea una lista de los parámetros ordenados
de menor a mayor valor de esta probabilidad de error.
- Se elige un subconjunto formado por los N
primeros parámetros de la lista, estando el valor de N comprendido
entre 0 y 39. Típicamente N=5, pero puede variar en función de la
aplicación.
\newpage
La comparación estadística requiere la
existencia de unos modelos acústicos de voz y ruido. En concreto, se
emplean modelos ocultos de Márkov (HMM, Hidden Markov Model) para
modelar estadísticamente dos unidades acústicas: una representa las
tramas de voz y otra representa las tramas de ruido. Estos modelos
se obtienen antes de utilizar el procedimiento de detección de
segmentos de voz y ruido de la presente invención. Para ello, con
carácter previo, se entrenan estas unidades acústicas, utilizando
para ello grabaciones que contienen segmentos de voz y ruido
etiquetados como tales.
La comparación se lleva a cabo utilizando el
algoritmo de Viterbi. De esta forma, a partir del vector de
características obtenido en la trama que se está procesando, de los
modelos estadísticos de voz y ruido, y de los datos de comparación
de las tramas procesadas anteriormente, se determina la probabilidad
de que la trama actual sea voz y la probabilidad de que sea ruido.
Asimismo se calcula un parámetro de puntuación acústica calculado al
dividir la probabilidad de que la trama sea voz entre la
probabilidad de que la trama sea ruido.
El proceso de clasificación de tramas (bloque
22) se lleva a cabo mediante un proceso de toma de decisión (véase
figura 2) que tiene en cuenta el parámetro de puntuación acústica
obtenido en el proceso de comparación estadística 21 y otros
criterios, entre ellos, las decisiones de clasificación como voz o
ruido de las tramas anteriores.
Esta figura 2 representa un diagrama de estados,
en el que cuando se produce una transición (por ejemplo si la
puntuación acústica es menor a "umbral_ac_1"), se pasa al
estado indicado por la flecha, y se llevan a cabo los procesos
incluidos en dicho estado. Por este motivo los procesos aparecen en
el siguiente estado, una vez realizada la transición.
Tal y como se muestra en la figura 2, los pasos
del proceso de toma de decisión son los siguientes:
* Estado inicial 210: Se pone a cero un
acumulador de puntuaciones acústicas, Acumulador punt. Acústicas
(2101). Se clasifican como ruido las posibles tramas previas que
estuviesen clasificadas de forma provisional como voz o como ruido
(2102).
A continuación se compara el parámetro de
puntuación acústica obtenido en la comparación estadística con un
primer umbral acústico, Umbral_ac_1.
A) Si no supera dicho primer umbral acústico
Umbral_ac_1 se realizan las siguientes acciones:
- i)
- Se clasifica definitivamente la trama actual como ruido (2102).
- ii)
- Se actualiza el primer umbral de energía utilizado en la primera etapa, Umbral_energ1 (2103), obteniendo una media (ponderada por un factor de memoria) entre su valor actual y el valor de la energía de la trama actual. El factor de memoria es un valor entre 0 y 1; típicamente tiene un valor de 0.9, ajustable en función de la aplicación.
- iii)
- Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.
B) En caso de que el parámetro de puntuación
acústica obtenido en la comparación estadística supere dicho primer
umbral acústico Umbral_ac_1, se realizan las siguientes
acciones:
- i)
- Se clasifica provisionalmente la trama actual como voz (2201).
- ii)
- Se actualiza el valor del acumulador de puntuaciones acústicas con el valor del parámetro de puntuación acústica obtenido en la comparación estadística (2202).
- iii)
- Se comprueba (2203) si la energía de la señal supera un segundo umbral de energía, Umbral_energ2 (ver figura 3), calculado a partir del valor actual del primer umbral de energía Umbral_energ1 (utilizado en la primera etapa 10 del procedimiento), cuyo valor se obtiene multiplicando dicho primer umbral de energía Umbral_energ1 por un factor y sumándole un offset adicional. Este factor tiene un valor configurable entre 0 y 1, y el offset, también con valor configurable, puede adquirir valores tanto positivos como negativos, oscilando su valor absoluto entre 0 y 10 veces el valor del primer umbral de energía, Umbral_energ1. Si supera dicho segundo umbral de energía, Umbral_energ2, se inicia con valor 1 un primer contador de tramas consecutivas que superan tanto el primer umbral acústico Umbral_ac_1 (de la comparación estadística) como este segundo umbral de energía, Umbral_energ2.
- iv)
- Se pasa al siguiente estado: estado de comprobación de inicio de segmento de voz 220.
- v)
- Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.
\vskip1.000000\baselineskip
* Estado de comprobación de inicio de segmento
de voz 220: se compara el parámetro de puntuación acústica obtenido
en la comparación estadística con el primer umbral acústico,
Umbral_ac_1.
A) Si no supera dicho primer umbral acústico
Umbral_ac_1 se realizan las siguientes acciones:
- i)
- Se clasifican como ruido (2102) tanto la trama en curso como todas las tramas anteriores clasificadas provisionalmente como voz.
- ii)
- Se ponen a cero el acumulador de puntuaciones acústicas (2101) y el primer contador de tramas consecutivas que superan tanto el segundo umbral de energía Umbral_energ_2 como el primer umbral de puntuación acústica Umbral_ac_1.
- iii)
- Se vuelve (2204) al estado inicial 210.
- iv)
- Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.
B) En caso de que el parámetro de puntuación
acústica obtenido en la comparación estadística supere dicho primer
umbral acústico Umbral_ac_1, se realizan las siguientes
acciones:
- i)
- Se clasifica provisionalmente la trama actual como voz (2301 ó 2201).
- ii)
- Se comprueba (2303 ó 2203) si la energía de la señal supera el segundo umbral de energía, Umbral_energ2 (véase figura 3).
- \bullet
- Si lo supera se incrementa (2203A en fig. 3) el primer contador de tramas consecutivas que superan tanto el primer umbral acústico Umbral_ac_1 de la comparación estadística como el segundo umbral de energía Umbral_energ2.
- \bullet
- Si no lo supera se pone a cero (2203B en fig. 3) dicho primer contador de tramas consecutivas.
- iii)
- Se incrementa el valor del acumulador de puntuaciones acústicas (2202) sumándole el valor del parámetro de puntuación acústica obtenido en la comparación estadística.
- iv)
- Se comprueba si el valor del acumulador de puntuaciones acústicas supera un segundo umbral de puntuaciones acústicas acumuladas, Umbral_ac_2.
- \bullet
- Si no supera dicho segundo umbral acústico Umbral_ac_2 se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.
- \bullet
- Si supera dicho segundo umbral acústico Umbral_ac_2:
- 1º) Se pasa al estado de segmento de voz encontrado 230.
- 2º) Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.
\vskip1.000000\baselineskip
* Estado de segmento de voz encontrado 230: se
compara el parámetro de puntuación acústica obtenido en la
comparación estadística con el primer umbral acústico,
Umbral_ac_1.
A) Si el parámetro de puntuación acústica supera
dicho primer umbral acústico Umbral_ac_1 se realizan las siguientes
acciones:
- i)
- Se clasifica provisionalmente la trama actual como voz (2301).
- ii)
- Se comprueba (2303) si la energía de la señal supera el segundo umbral de energía Umbral_energ2 (ver fig. 3).
- \bullet
- Si lo supera se incrementa (2203A en fig. 3) el primer contador de tramas consecutivas que superan tanto el primer umbral acústico Umbral_ac_1 de la comparación estadística como el segundo umbral de energía Umbral_energ2.
- \bullet
- Si no lo supera se pone a cero (2203B en fig. 3) dicho primer contador de tramas consecutivas.
- iii)
- Se pasa a procesar desde la primera etapa del procedimiento 10 la siguiente trama de señal.
B) En caso de que el parámetro de puntuación
acústica obtenido en la comparación estadística no supere el primer
umbral acústico, Umbral_ac_1, se realizan las siguientes
acciones:
- i)
- Se clasifica provisionalmente la trama actual como ruido (2401).
- ii)
- Se pasa al estado de comprobación de fin de segmento de voz 240.
- iii)
- Se inicia a 1 (2302) un segundo contador de número de tramas consecutivas que no superan el umbral acústico modificado (la primera vez debe quedar por debajo de umbral_ac_1 para iniciar el contador; posteriormente los incrementos del contador se hacen cuando no se supere el umbral modificado (dividido por factor de histéresis)).
- iv)
- Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.
\vskip1.000000\baselineskip
* Estado de comprobación de fin de segmento de
voz 240: Se compara el parámetro de puntuación acústica obtenido en
la comparación estadística con un umbral modificado resultante de
dividir el primer umbral acústico Umbral_ac_1 por un factor de
histéresis, Histéresis.
A) Si el parámetro de puntuación acústica supera
dicho umbral modificado, Umbral_ac_1 /Histéresis se realizan las
siguientes acciones:
- i)
- Se clasifica provisionalmente la trama actual como voz. Asimismo, se clasifican provisionalmente como voz las tramas anteriores que se encontraban clasificadas provisionalmente como ruido (2301).
- ii)
- Se comprueba (2203 ó 2303) si la energía de la señal supera el segundo umbral de energía, Umbral_energ_2.
- \bullet
- Si lo supera se incrementa (2203A en fig. 3) el primer contador de tramas consecutivas que superan tanto el umbral modificado Umbral_ac_1 /Histéresis de la comparación estadística como el segundo umbral de energía Umbral_energ2.
- \bullet
- Si no lo supera se pone a cero (2203B en fig. 3) dicho primer contador de tramas consecutivas.
- iii)
- Se pasa al estado de segmento de voz encontrado 230.
- iv)
- Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.
B) En caso de que el parámetro de puntuación
acústica obtenido en la comparación estadística no supere el umbral
modificado Umbral_ac_1 /Histéresis, se realizan las siguientes
acciones:
- i)
- Se clasifica provisionalmente la trama actual como ruido (2401).
- ii)
- Se incrementa (2402) el segundo contador de número de tramas consecutivas que no superan el umbral acústico modificado.
- iii)
- Se comprueba si dicho segundo contador de número de tramas consecutivas que no superan el umbral acústico modificado, Umbral_ac_1 /Histéresis es mayor que un umbral de duración de búsqueda de fin de pulso de voz, Umbral_dur_fin. Si es mayor, se pasa a la tercera etapa 30 del procedimiento de detección.
- \quad
- En caso contrario, se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.
\vskip1.000000\baselineskip
En la tercera etapa 30 del procedimiento de la
presente invención se revisa la clasificación voz/ruido de las
tramas de señal llevada a cabo en la segunda etapa utilizando
criterios de duración para así finalmente detectar los segmentos de
voz 2. Se hacen las siguientes comprobaciones (véase figura 4):
- -
- Si el máximo valor alcanzado durante la segunda etapa 20 por el primer contador de tramas consecutivas que superan tanto el primer umbral acústico Umbral_ac_1 como el segundo umbral de energía Umbral_ energ_2 es menor (300A) que un primer umbral de duración, Umbral_dur1, se considera que el segmento de voz detectado es espurio (310), y se descarta. En consecuencia, todas las tramas de señal clasificadas provisionalmente como voz y como ruido, que cumplan este criterio, se clasifican definitivamente como ruido.
- -
- Si el máximo valor alcanzado durante la segunda etapa 20 de dicho primer contador es mayor o igual (300B) que dicho primer umbral de duración, Umbral_dur_1, se comprueba (301) si el número total de todas las tramas clasificadas provisionalmente como voz supera un segundo umbral de duración Umbral_dur2.
- \bullet
- En caso de no superarlo (301A), se considera que el segmento de voz detectado es espurio (320) y, en consecuencia, todas las tramas de señal clasificadas provisionalmente como voz o como ruido que cumplan este criterio, se clasifican definitivamente como ruido.
\newpage
- \bullet
- Si se supera (301B) este segundo umbral de duración, Umbral_dur2, las tramas clasificadas provisionalmente como voz se clasifican de forma definitiva como voz (330), y las tramas clasificadas provisionalmente como ruido se clasifican definitivamente como ruido.
\vskip1.000000\baselineskip
En la tercera etapa se llevan a cabo, además,
las siguientes acciones:
- -
- Se actualiza el primer umbral de energía Umbral_energ1 utilizado en la primera etapa 10 del procedimiento, obteniendo una media (ponderada por un factor de memoria) entre su valor actual y el valor de la energía de la trama actual.
- -
- Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal. En caso de que dicha trama pase a la segunda etapa 20 del procedimiento, el proceso de toma de decisión comenzará desde el estado inicial 210.
\vskip1.000000\baselineskip
La invención ha sido descrita según una
realización preferente de la misma, pero para el experto en la
materia resultará evidente que múltiples variaciones pueden ser
introducidas en dicha realización preferente sin exceder el objeto
de la invención reivindicada.
Claims (11)
1. Procedimiento de detección de segmentos de
voz (2) y de ruido en una señal digital de audio de entrada, estando
dividida dicha señal de entrada en una pluralidad de tramas (1) que
comprende:
- -
- una primera etapa (10) en la que se realiza una primera clasificación de una trama como ruido si el valor medio de la energía para esta trama y las N tramas anteriores no es superior a un primer umbral de energía (umbral_energ1), siendo N un número entero mayor que 1;
- -
- una segunda etapa (20) en la que para cada trama que no ha sido clasificada como ruido en la primera etapa se decide si dicha trama se clasifica como ruido o como voz basándose en combinar al menos un primer criterio de similaridad espectral de la trama con modelos acústicos de ruido y de voz, un segundo criterio de análisis de energía de la trama respecto a un segundo umbral de energía (umbral_energ2) y un tercer criterio de duración consistente en utilizar una máquina de estados para detectar el inicio de un segmento como acumulación de un número determinado de tramas consecutivas con parecido acústico superior a un primer umbral acústico (umbral_ac1) y otro número determinado de tramas consecutivas con parecido acústico inferior a dicho primer umbral acústico para detectar el fin de dicho segmento;
- -
- una tercera etapa (30) en la que se revisa la clasificación como voz o como ruido de las tramas de señal llevada a cabo en la segunda etapa utilizando criterios de duración, clasificando como ruido los segmentos de voz de duración inferior a un primer umbral de duración mínima de segmento, así como aquellos que no contienen un determinado número de tramas consecutivas que simultáneamente superan dicho umbral acústico y dicho segundo umbral de energía.
\vskip1.000000\baselineskip
2. Procedimiento según las reivindicación 1, en
el que en dicha tercera etapa se utilizan dos umbrales de
duración:
- -
- un primer umbral (umbral_dur1) de duración mínima de segmento o número mínimo de tramas consecutivas clasificadas como voz o como ruido;
- -
- un segundo umbral de duración (umbral_dur2) de tramas consecutivas que en la segunda etapa cumplen tanto el criterio de similaridad espectral como el criterio de análisis de energía de la trama.
\vskip1.000000\baselineskip
3. Procedimiento según cualquiera de las
reivindicaciones 1-2, en el que dicho criterio de
similaridad espectral usado en la segunda etapa consiste en un
análisis comparativo de características espectrales de dicha trama
con características espectrales de dichos modelos acústicos de ruido
y de voz previamente establecidos.
4. Procedimiento según la reivindicación 3, en
el que dicho análisis comparativo de características espectrales se
realiza utilizando el algoritmo de Viterbi.
5. Procedimiento según cualquiera de las
reivindicaciones 1-4, en el que dichos modelos
acústicos de ruido y de voz previamente establecidos se obtienen
modelando estadísticamente dos unidades acústicas, de ruido y voz
respectivamente, mediante modelos ocultos de Márkov.
6. Procedimiento según cualquiera de las
reivindicaciones anteriores, en el que la máquina de estados
comprende, al menos, un estado inicial (210), un estado en el que se
comprueba que se ha iniciado un segmento de voz (220), un estado en
el que se comprueba que continúa el segmento de voz (230), y un
estado en el que se comprueba que ha finalizado el segmento de voz
(240).
7. Procedimiento según cualquiera de las
reivindicaciones anteriores, en el que en la segunda etapa, para
cada trama que no ha sido clasificada como ruido en la primera
etapa:
- -
- se calcula una probabilidad de que la trama sea de ruido comparando unas características espectrales de dicha trama con esas mismas características espectrales de un grupo de tramas clasificadas como ruido que no pertenecen a la señal que se está analizando;
- -
- se calcula una probabilidad de que la trama sea de voz comparando unas características espectrales de dicha trama con esas mismas características espectrales de un grupo de tramas clasificadas como voz que no pertenecen a la señal que se está analizando;
- -
- se calcula un estado siguiente de la máquina de estados en función de al menos, un ratio entre la probabilidad de que la trama sea de voz y la probabilidad de que la trama sea de ruido, y de un estado actual de dicha máquina de estados.
\newpage
8. Procedimiento según la reivindicación 7
cuando depende de la 6, en el que para producirse una transición
entre el estado en el que se comprueba que se ha iniciado un
segmento de voz (220) y el estado en el que se comprueba que
continúa un segmento de voz (230), se requieren, al menos, dos
tramas consecutivas en las que el ratio entre la probabilidad de que
la trama sea de voz y la probabilidad de que la trama sea de ruido
sea superior a un primer umbral acústico.
9. Procedimiento según la reivindicación 7
cuando depende de la 6 o según la reivindicación 8, en el que para
producirse una transición entre el estado que comprueba que se ha
finalizado un segmento de voz (240) y el estado inicial (210) se
requieren, al menos, dos tramas consecutivas en las que el ratio
entre la probabilidad de que la trama sea de voz y la probabilidad
de que la trama sea de ruido sea inferior a un primer umbral
acústico dividido por un factor.
10. Procedimiento según cualquiera de las
reivindicaciones 1-9, en el que el primer umbral de
energía utilizado en la primera etapa se actualiza dinámicamente
ponderando su valor actual y el valor de energía de las tramas
clasificadas como ruido en la segunda y la tercera etapas.
11. Procedimiento según la reivindicación 1 -2,
en el que el criterio de análisis de la energía de la trama (2203,
2303) consiste en superar un segundo umbral de energía, calculado al
multiplicar el primer umbral de energía por un factor y sumarle un
offset.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200930819A ES2371619B1 (es) | 2009-10-08 | 2009-10-08 | Procedimiento de detección de segmentos de voz. |
US13/500,196 US20130054236A1 (en) | 2009-10-08 | 2010-10-07 | Method for the detection of speech segments |
ES10768905.1T ES2454249T3 (es) | 2009-10-08 | 2010-10-07 | Procedimiento de detección de segmentos de habla |
CN201080050560.8A CN102687196B (zh) | 2009-10-08 | 2010-10-07 | 用于检测语音段的方法 |
BR112012007910A BR112012007910A2 (pt) | 2009-10-08 | 2010-10-07 | método de detecção de segmentos de voz |
PCT/EP2010/065022 WO2011042502A1 (en) | 2009-10-08 | 2010-10-07 | Method for the detection of speech segments |
EP10768905.1A EP2486562B1 (en) | 2009-10-08 | 2010-10-07 | Method for the detection of speech segments |
ARP100103681A AR078575A1 (es) | 2009-10-08 | 2010-10-08 | Procedimiento de deteccion de segmentos de voz |
UY0001032941A UY32941A (es) | 2009-10-08 | 2010-10-08 | Procedimiento de detección de segmentos de voz |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200930819A ES2371619B1 (es) | 2009-10-08 | 2009-10-08 | Procedimiento de detección de segmentos de voz. |
Publications (2)
Publication Number | Publication Date |
---|---|
ES2371619A1 true ES2371619A1 (es) | 2012-01-05 |
ES2371619B1 ES2371619B1 (es) | 2012-08-08 |
Family
ID=43597991
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES200930819A Expired - Fee Related ES2371619B1 (es) | 2009-10-08 | 2009-10-08 | Procedimiento de detección de segmentos de voz. |
ES10768905.1T Active ES2454249T3 (es) | 2009-10-08 | 2010-10-07 | Procedimiento de detección de segmentos de habla |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES10768905.1T Active ES2454249T3 (es) | 2009-10-08 | 2010-10-07 | Procedimiento de detección de segmentos de habla |
Country Status (8)
Country | Link |
---|---|
US (1) | US20130054236A1 (es) |
EP (1) | EP2486562B1 (es) |
CN (1) | CN102687196B (es) |
AR (1) | AR078575A1 (es) |
BR (1) | BR112012007910A2 (es) |
ES (2) | ES2371619B1 (es) |
UY (1) | UY32941A (es) |
WO (1) | WO2011042502A1 (es) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
WO2013142723A1 (en) * | 2012-03-23 | 2013-09-26 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
CN109119096B (zh) * | 2012-12-25 | 2021-01-22 | 中兴通讯股份有限公司 | 一种vad判决中当前激活音保持帧数的修正方法及装置 |
US9076459B2 (en) | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
US9564128B2 (en) * | 2013-12-09 | 2017-02-07 | Qualcomm Incorporated | Controlling a speech recognition process of a computing device |
US8719032B1 (en) * | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
CN105261375B (zh) | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
CN104464722B (zh) * | 2014-11-13 | 2018-05-25 | 北京云知声信息技术有限公司 | 基于时域和频域的语音活性检测方法和设备 |
US9576589B2 (en) * | 2015-02-06 | 2017-02-21 | Knuedge, Inc. | Harmonic feature processing for reducing noise |
US9685156B2 (en) | 2015-03-12 | 2017-06-20 | Sony Mobile Communications Inc. | Low-power voice command detector |
CN106328169B (zh) * | 2015-06-26 | 2018-12-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
DK3118851T3 (da) * | 2015-07-01 | 2021-02-22 | Oticon As | Forbedring af støjende tale baseret på statistiske tale- og støjmodeller |
CN105070287B (zh) * | 2015-07-03 | 2019-03-15 | 广东小天才科技有限公司 | 一种自适应嘈杂环境下语音端点检测的方法和装置 |
US9754607B2 (en) | 2015-08-26 | 2017-09-05 | Apple Inc. | Acoustic scene interpretation systems and related methods |
US20170256270A1 (en) * | 2016-03-02 | 2017-09-07 | Motorola Mobility Llc | Voice Recognition Accuracy in High Noise Conditions |
CN106887241A (zh) | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
CN109147770B (zh) | 2017-06-16 | 2023-07-28 | 阿里巴巴集团控股有限公司 | 声音识别特征的优化、动态注册方法、客户端和服务器 |
CN107393559B (zh) * | 2017-07-14 | 2021-05-18 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
US10431242B1 (en) * | 2017-11-02 | 2019-10-01 | Gopro, Inc. | Systems and methods for identifying speech based on spectral features |
US10424294B1 (en) * | 2018-01-03 | 2019-09-24 | Gopro, Inc. | Systems and methods for identifying voice |
CN108881652B (zh) * | 2018-07-11 | 2021-02-26 | 北京大米科技有限公司 | 回音检测方法、存储介质和电子设备 |
CN109036471B (zh) * | 2018-08-20 | 2020-06-30 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN110580917B (zh) * | 2019-09-16 | 2022-02-15 | 数据堂(北京)科技股份有限公司 | 一种语音数据质量检测方法、装置、服务器及存储介质 |
CN111739515B (zh) * | 2019-09-18 | 2023-08-04 | 北京京东尚科信息技术有限公司 | 语音识别方法、设备、电子设备和服务器、相关系统 |
CN112201271B (zh) * | 2020-11-30 | 2021-02-26 | 全时云商务服务股份有限公司 | 一种基于vad的语音状态统计方法、系统和可读存储介质 |
CN112669880B (zh) * | 2020-12-16 | 2023-05-02 | 北京读我网络技术有限公司 | 一种自适应检测语音结束的方法及系统 |
CN113012716B (zh) * | 2021-02-26 | 2023-08-04 | 武汉星巡智能科技有限公司 | 婴儿哭声类别识别方法、装置及设备 |
CN113539295B (zh) * | 2021-06-10 | 2024-04-23 | 联想(北京)有限公司 | 一种语音处理方法及装置 |
CN113724735A (zh) * | 2021-09-01 | 2021-11-30 | 广州博冠信息科技有限公司 | 语音流处理方法及装置、计算机可读存储介质、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6947892B1 (en) * | 1999-08-18 | 2005-09-20 | Siemens Aktiengesellschaft | Method and arrangement for speech recognition |
US20060053003A1 (en) * | 2003-06-11 | 2006-03-09 | Tetsu Suzuki | Acoustic interval detection method and device |
EP1659570A1 (en) * | 2004-11-20 | 2006-05-24 | LG Electronics Inc. | Method and apparatus for detecting speech segments in speech signal processing |
US20070055511A1 (en) * | 2004-08-31 | 2007-03-08 | Hiromu Gotanda | Method for recovering target speech based on speech segment detection under a stationary noise |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE68929442T2 (de) * | 1988-03-11 | 2003-10-02 | British Telecommunications P.L.C., London | Vorrichtung zur Erfassung von Sprachlauten |
JPH01244497A (ja) | 1988-03-25 | 1989-09-28 | Toshiba Corp | 音声区間検出回路 |
US5485522A (en) * | 1993-09-29 | 1996-01-16 | Ericsson Ge Mobile Communications, Inc. | System for adaptively reducing noise in speech signals |
US5657422A (en) * | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
DE19500494C2 (de) * | 1995-01-10 | 1997-01-23 | Siemens Ag | Merkmalsextraktionsverfahren für ein Sprachsignal |
JP3523382B2 (ja) | 1995-08-10 | 2004-04-26 | 株式会社リコー | 音声認識装置及び音声認識方法 |
US5819217A (en) * | 1995-12-21 | 1998-10-06 | Nynex Science & Technology, Inc. | Method and system for differentiating between speech and noise |
EP0909442B1 (en) * | 1996-07-03 | 2002-10-09 | BRITISH TELECOMMUNICATIONS public limited company | Voice activity detector |
DE69831991T2 (de) * | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
US6032116A (en) * | 1997-06-27 | 2000-02-29 | Advanced Micro Devices, Inc. | Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts |
US6480823B1 (en) * | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
US6192395B1 (en) * | 1998-12-23 | 2001-02-20 | Multitude, Inc. | System and method for visually identifying speaking participants in a multi-participant networked event |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
JP3789246B2 (ja) | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
US6615170B1 (en) | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US6983242B1 (en) * | 2000-08-21 | 2006-01-03 | Mindspeed Technologies, Inc. | Method for robust classification in speech coding |
US7120580B2 (en) * | 2001-08-15 | 2006-10-10 | Sri International | Method and apparatus for recognizing speech in a noisy environment |
KR100429896B1 (ko) * | 2001-11-22 | 2004-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성신호 검출방법 및 그 장치 |
FR2856506B1 (fr) * | 2003-06-23 | 2005-12-02 | France Telecom | Procede et dispositif de detection de parole dans un signal audio |
EP1594120B1 (en) * | 2004-05-07 | 2013-08-14 | Swisscom AG | Method for building hidden Markov speech models |
WO2006104576A2 (en) * | 2005-03-24 | 2006-10-05 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
WO2006114101A1 (en) * | 2005-04-26 | 2006-11-02 | Aalborg Universitet | Detection of speech present in a noisy signal and speech enhancement making use thereof |
KR100745977B1 (ko) * | 2005-09-26 | 2007-08-06 | 삼성전자주식회사 | 음성 구간 검출 장치 및 방법 |
US8326620B2 (en) * | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
CN100589183C (zh) * | 2007-01-26 | 2010-02-10 | 北京中星微电子有限公司 | 数字自动增益控制方法及装置 |
TWI336880B (en) * | 2007-06-11 | 2011-02-01 | Univ Nat Taiwan | Voice processing methods and systems, and machine readable medium thereof |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
US8131543B1 (en) * | 2008-04-14 | 2012-03-06 | Google Inc. | Speech detection |
-
2009
- 2009-10-08 ES ES200930819A patent/ES2371619B1/es not_active Expired - Fee Related
-
2010
- 2010-10-07 BR BR112012007910A patent/BR112012007910A2/pt not_active IP Right Cessation
- 2010-10-07 US US13/500,196 patent/US20130054236A1/en not_active Abandoned
- 2010-10-07 WO PCT/EP2010/065022 patent/WO2011042502A1/en active Application Filing
- 2010-10-07 CN CN201080050560.8A patent/CN102687196B/zh not_active Expired - Fee Related
- 2010-10-07 EP EP10768905.1A patent/EP2486562B1/en not_active Not-in-force
- 2010-10-07 ES ES10768905.1T patent/ES2454249T3/es active Active
- 2010-10-08 AR ARP100103681A patent/AR078575A1/es unknown
- 2010-10-08 UY UY0001032941A patent/UY32941A/es not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6947892B1 (en) * | 1999-08-18 | 2005-09-20 | Siemens Aktiengesellschaft | Method and arrangement for speech recognition |
US20060053003A1 (en) * | 2003-06-11 | 2006-03-09 | Tetsu Suzuki | Acoustic interval detection method and device |
US20070055511A1 (en) * | 2004-08-31 | 2007-03-08 | Hiromu Gotanda | Method for recovering target speech based on speech segment detection under a stationary noise |
EP1659570A1 (en) * | 2004-11-20 | 2006-05-24 | LG Electronics Inc. | Method and apparatus for detecting speech segments in speech signal processing |
Also Published As
Publication number | Publication date |
---|---|
EP2486562A1 (en) | 2012-08-15 |
BR112012007910A2 (pt) | 2016-03-22 |
EP2486562B1 (en) | 2013-12-11 |
CN102687196A (zh) | 2012-09-19 |
AR078575A1 (es) | 2011-11-16 |
UY32941A (es) | 2011-04-29 |
WO2011042502A1 (en) | 2011-04-14 |
CN102687196B (zh) | 2014-05-07 |
ES2371619B1 (es) | 2012-08-08 |
US20130054236A1 (en) | 2013-02-28 |
ES2454249T3 (es) | 2014-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2454249T3 (es) | Procedimiento de detección de segmentos de habla | |
CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
US9899021B1 (en) | Stochastic modeling of user interactions with a detection system | |
US11069352B1 (en) | Media presence detection | |
US8275616B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
CN110660201B (zh) | 到站提醒方法、装置、终端及存储介质 | |
CN103077708B (zh) | 一种语音识别系统中拒识能力提升方法 | |
CN111462756B (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
Gosztolya et al. | DNN-based feature extraction and classifier combination for child-directed speech, cold and snoring identification | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
Gupta | Speaker change point detection using deep neural nets | |
WO2015059946A1 (ja) | 音声検出装置、音声検出方法及びプログラム | |
CN104781862A (zh) | 实时交通检测 | |
CN103366737B (zh) | 在自动语音识别中应用声调特征的装置和方法 | |
US11081115B2 (en) | Speaker recognition | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN113192501B (zh) | 一种指令词识别方法及装置 | |
CN112189232A (zh) | 音频处理方法及装置 | |
CN112614506B (zh) | 语音激活检测方法和装置 | |
May et al. | Environment-aware ideal binary mask estimation using monaural cues | |
CN112951219A (zh) | 噪声拒识方法和装置 | |
US7085718B2 (en) | Method for speaker-identification using application speech | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
CN114038487A (zh) | 一种音频提取方法、装置、设备和可读存储介质 | |
KR102055886B1 (ko) | 화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG2A | Definitive protection |
Ref document number: 2371619 Country of ref document: ES Kind code of ref document: B1 Effective date: 20120808 |
|
FD2A | Announcement of lapse in spain |
Effective date: 20190611 |