ES2371619B1

ES2371619B1 - Procedimiento de detección de segmentos de voz.

Info

Publication number: ES2371619B1
Application number: ES200930819A
Authority: ES
Inventors: Carlos Garcia Martinez; Helenca Duxans Barrobes; Mauricio Sendra Vicens; David Cadenas Sanchez
Original assignee: Telefonica SA
Current assignee: Telefonica SA
Priority date: 2009-10-08
Filing date: 2009-10-08
Publication date: 2012-08-08
Anticipated expiration: 2029-10-08
Also published as: CN102687196A; UY32941A; EP2486562B1; WO2011042502A1; AR078575A1; EP2486562A1; ES2454249T3; ES2371619A1; US20130054236A1; CN102687196B; BR112012007910A2

Abstract

La presente invención se refiere a un procedimiento de detección de segmentos de voz y de ruido en una señal digital de audio de entrada, estando dividida dicha señal de entrada en una pluralidad de tramas que comprende:#- una primera etapa (10) en la que se realiza una primera clasificación de una trama como ruido si el valor medio de la energía para esta trama y las N tramas anteriores no es superior a un primer umbral de energía, N> 1;#- una segunda etapa (20) en la que para cada trama que no ha sido clasificada como ruido en la primera etapa se decide si dicha trama se clasifica como ruido o como voz basándose en combinar al menos un primer criterio de similaridad espectral de la trama con modelos acústicos de ruido y de voz, un segundo criterio de análisis de energía de la trama y un tercer criterio de duración; y en utilizar una máquina de estados para detectar inicio de un segmento como acumulación de un número determinado de tramas consecutivas con parecido acústico superior a un primer umbral y para detectar fin de dicho segmento;#- una tercera etapa (30) en la que se revisa la clasificación como voz o como ruido de las tramas de señal llevada a cabo en la segunda etapa utilizando criterios de duración.

Description

Procedimiento de detección de segmentos de voz.

Campo de la invención

La presente invención pertenece al área de la tecnología del habla, particularmente reconocimiento del habla y veriﬁcación del locutor, en concreto a la detección de voz y ruido.

Antecedentes de la invención

El reconocimiento automático del habla es una tarea particularmente complicada. Uno de los motivos es la diﬁcultad de detectar los comienzos y ﬁnales de los segmentos de voz pronunciados por el usuario, discriminándolos adecuadamente de los periodos de silencio que se producen antes de que comience a hablar, después de que termine, y los que resultan de las pausas que dicho usuario realiza para respirar mientras habla.

La detección y delimitación de los segmentos de voz pronunciados es fundamental por dos motivos. En primer lugar, por motivos de eﬁciencia computacional: los algoritmos utilizados en reconocimiento del habla son bastante exigentes en lo que a carga computacional se reﬁere, por lo que aplicarlos a toda la señal acústica, sin eliminar los periodos en los que no hay presente voz del usuario, supondría disparar la carga de procesamiento y, en consecuencia, provocaría retrasos considerables en la respuesta de los sistemas de reconocimiento. En segundo lugar, y no menos importante, por motivos de eﬁcacia: la eliminación de los segmentos de señal que no contienen voz del usuario, limita considerablemente el espacio de búsqueda del sistema de reconocimiento, reduciendo sustancialmente su tasa de error. Por estos motivos, los sistemas comerciales de reconocimiento automático del habla incorporan un módulo de detección de segmentos de voz y de ruido.

Como consecuencia de la importancia de la detección de segmentos de voz, los esfuerzos para conseguir llevar a cabo esta tarea adecuadamente han sido muy numerosos.

Por ejemplo, la solicitud de patente japonesa JP-A-9050288 presenta un método de detección de segmentos de voz. En concreto, se determinan los puntos de inicio y ﬁnalización del segmento de voz mediante la comparación de la amplitud de la señal de entrada con un umbral. Este método presenta el inconveniente de que el funcionamiento depende del nivel de la señal de ruido, por lo que sus resultados no son adecuados en presencia de ruidos de gran amplitud.

Por su parte, la solicitud de patente japonesa JP-A-1244497 muestra un método de detección de segmentos de voz basado en el cálculo de la energía de la señal. En concreto, se calcula la energía media de las primeras tramas de voz y utiliza el valor obtenido como estimación de la energía de la señal de ruido superpuesta a la voz. A continuación, se detectan los pulsos de voz mediante la comparación de la energía de cada trama de la señal con un umbral dependiente de la energía de la señal de ruido estimada. De esta forma, se compensa la posible variabilidad de valores de energía de la señal de ruido. Sin embargo, el método no funciona correctamente cuando aparecen segmentos de ruido de gran amplitud y corta duración.

En la patente estadounidense US-6317711 también se describe un método de detección de segmentos de voz. En este caso, para cada trama de señal se obtiene un vector de características mediante una parametrización LPC-cepstra y MEL-cepstra. A continuación, se busca el valor mínimo de dicho vector y se normalizan todos los elementos de dicho vector dividiendo su valor por este valor mínimo. Finalmente se compara el valor de la energía normalizada con un conjunto de umbrales predeterminados para detectar los segmentos de voz. Este método ofrece mejores resultados que el anterior, aunque sigue presentando diﬁcultades para detectar segmentos de voz en condiciones de ruido desfavorables.

En la patente estadounidense US-6615170 se presenta un método alternativo de detección de segmentos de voz que, en lugar de basarse en la comparación de un parámetro o un vector de parámetros con un umbral o conjunto de umbrales, se basa en el entrenamiento de modelos acústicos de ruido y de voz y en la comparación de la señal de entrada con dichos modelos, determinando si una determinada trama es voz o ruido mediante la maximización de la máxima verosimilitud.

Aparte de estas patentes y otras similares, el tratamiento de la tarea de la detección de segmentos de voz y ruido en la literatura cientíﬁca es muy extenso, existiendo numerosos artículos y ponencias que presentan diferentes métodos de llevar a cabo dicha detección. Así, por ejemplo, en “Voice Activity Detection Based on Conditional MAP Criterion” (Jong Won Shin, Hyuk Jin Kwon, Suk Ho Jin, Nam Soo Kim; en IEEE Signal Processing Letters, ISSN: 1070-9908, Vo. 15, Feb. 2008) se describe un método de detección de voz basado en una variante del criterio MAP (maximum a posteriori), que clasiﬁca las tramas de señal en voz o ruido basándose en parámetros espectrales y utilizando umbrales diferentes dependiendo de los resultados de clasiﬁcación inmediatamente anteriores.

En lo que respecta al ámbito de la normalización, cabe destacar la recomendación de un método de detección de voz incluida en el estándar de la ETSI de reconocimiento del habla distribuido (ETSI ES 202 050 v1.1.3. Distributed Speech Recognition; Advanced Front-end Feature Extraction Algorithm; Compression Algorithms. Technical Report ETSI ES 202 050, ETSI). El método recomendado en el estándar se basa en el cálculo de tres parámetros de la señal para cada trama de la misma y su comparación con tres umbrales correspondientes, utilizando un conjunto de varias tramas consecutivas para tomar la decisión voz/ruido ﬁnal.

Sin embargo, a pesar de la gran cantidad de métodos propuestos, en la actualidad la tarea de detección de segmentos de voz sigue presentando importantes diﬁcultades. Los métodos propuestos hasta el momento, tanto los basados en la comparación de parámetros con umbrales, como los basados en clasiﬁcación estadística, son insuﬁcientemente robustos en condiciones desfavorables de ruido, especialmente en presencia de ruido no estacionario, lo que provoca un aumento de los errores de detección de segmentos de voz en tales condiciones. Por este motivo, la utilización de estos métodos en entornos particularmente ruidosos, como es el caso del interior de automóviles, presenta importantes problemas.

Es decir, los métodos de detección de segmentos de voz propuestos hasta el momento, tanto los basados en la comparación de parámetros de la señal con umbrales como los basados en comparación estadística, presentan importantes problemas de robustez en entornos de ruido desfavorables. Particularmente, su funcionamiento se degrada considerablemente ante la presencia de ruidos de carácter no estacionario.

Como consecuencia de la falta de robustez en determinadas condiciones, resulta inviable o particularmente difícil la utilización de sistemas de reconocimiento automático del habla en determinados entornos (como por ejemplo, el interior de automóviles). En estos casos, el empleo de métodos de detección de segmentos de voz basados en comparación de parámetros de la señal con umbrales, o bien basados en comparaciones estadísticas, no proporciona resultados adecuados. En consecuencia, los reconocedores automáticos del habla obtienen numerosos resultados erróneos, así como frecuentes rechazos de las pronunciaciones del usuario, lo que diﬁculta enormemente la utilización de este tipo de sistemas.

Descripción de la invención

La invención se reﬁere a un procedimiento de detección de segmentos de voz de acuerdo con la reivindicación 1. Realizaciones preferidas del procedimiento se deﬁnen en las reivindicaciones dependientes.

La presente propuesta trata de hacer frente a tales limitaciones, ofreciendo un procedimiento de detección de segmentos de voz robusto en entornos ruidosos, incluso en presencia de ruidos de carácter no estacionario. Para ello, el procedimiento propuesto se basa en la combinación de tres criterios para tomar la decisión de clasiﬁcar los segmentos de la señal de entrada como voz o como ruido. En concreto, se utiliza un primer criterio relacionado con la energía de la señal, basado en la comparación con un umbral. Como segundo criterio se utiliza una comparación estadística de una serie de parámetros espectrales de la señal con unos modelos de voz y de ruido. Y se utiliza un tercer criterio basado en la duración de los distintos pulsos de voz y ruido, basado en la comparación con un conjunto de umbrales.

Y el procedimiento de detección de segmentos de voz propuesto se realiza en tres etapas. En la primera etapa se descartan las tramas de señal cuya energía no supera un cierto umbral energético, cuyo valor se actualiza automáticamente en tiempo real en función del nivel de ruido existente. En la segunda etapa, las tramas de voz no descartadas se someten a un método de decisión que combina los tres criterios expuestos para clasiﬁcar dichas tramas como voz

o ruido. Finalmente, en la tercera etapa se lleva cabo una validación de los segmentos de voz y ruido obtenidos según un criterio de duración, eliminándose los segmentos cuya duración no supere un cierto umbral.

La combinación de los tres criterios, así como la realización del procedimiento en las tres etapas propuestas permite obtener los segmentos de voz y ruido con mayor precisión que la obtenida con otros métodos, especialmente en condiciones de ruido desfavorables. Asimismo, esta detección de segmentos se lleva a cabo en tiempo real y, por tanto, puede aplicarse en sistemas de reconocimiento automático del habla de carácter interactivo.

La presente invención tiene como objetivo un procedimiento de detección de segmentos de voz y de ruido en una señal digital de audio de entrada, estando dividida dicha señal de entrada en una pluralidad de tramas que comprende:

-: una primera etapa en la que se realiza una primera clasiﬁcación de una trama como ruido si el valor medio de la energía para esta trama y las N tramas anteriores no es superior a un primer umbral de energía, siendo N un número entero mayor que 1;

-: una segunda etapa en la que para cada trama que no ha sido clasiﬁcada como ruido en la primera etapa se decide si dicha trama se clasiﬁca como ruido o como voz basándose en combinar al menos un primer criterio de similaridad espectral de la trama con modelos acústicos de ruido y de voz, un segundo criterio de análisis de energía de la trama respecto a un segundo umbral de energía, y un tercer criterio de duración consistente en utilizar una máquina de estados para detectar el inicio de un segmento como acumulación de un número determinado de tramas consecutivas con parecido acústico superior a un primer umbral acústico y otro número determinado de tramas consecutivas con parecido acústico inferior a dicho primer umbral acústico para detectar el ﬁn de dicho segmento;

-: una tercera etapa en la que se revisa la clasiﬁcación como voz o como ruido de las tramas de señal llevada a cabo en la segunda etapa utilizando criterios de duración, clasiﬁcando como ruido los segmentos de voz de duración inferior a un primer umbral de duración mínima de segmento, así como aquellos que no contienen un determinado número de tramas consecutivas que simultáneamente superan dicho umbral acústico y dicho segundo umbral de energía.

Es decir, el procedimiento de la invención se realiza en tres etapas: una primera basada en umbral de energía, una segunda etapa de decisión multicriterio y una tercera de comprobación de duraciones.

La toma de decisión de la segunda etapa está basada en:

-: Por un lado, la utilización simultánea de tres criterios: similaridad espectral, valor energético y duración (es necesario un mínimo número de tramas consecutivas similares espectralmente al modelo de ruido al ﬁnal del segmento para dar éste por terminado).

-: Por otro, la utilización de diferentes estados, lo que introduce cierta histéresis tanto para detectar el comienzo del segmento (hace falta acumular varias tramas con parecido acústico superior al umbral) como para el ﬁnal del mismo (histéresis).

Esto hace que mejore el funcionamiento eliminando falsos principios y ﬁnales de segmento.

En la tercera etapa se utilizan preferiblemente dos umbrales de duración:

-: Un primer umbral de duración mínima de segmento.

-: Un segundo umbral de duración de tramas consecutivas que cumplen tanto el criterio de similaridad acústica como el de energía mínima.

La utilización de este doble umbral mejora frente a ruidos impulsivos y balbuceos del usuario.

La invención puede utilizarse como parte de un sistema de reconocimiento del habla. También puede utilizarse como parte de un sistema de identiﬁcación o veriﬁcación del locutor, o bien como parte de un sistema de detección acústica del idioma o de indexado acústico de contenidos multimedia.

La utilización de los criterios de duración, tanto en la segunda como en la tercera etapa, hace que el procedimiento clasiﬁque correctamente ruidos de carácter no estacionario y balbuceos del usuario, algo que no consiguen hacer los procedimientos conocidos hasta el momento: los criterios basados en umbrales energéticos no son capaces de discriminar los ruidos no estacionarios con altos valores de energía, mientras que los criterios basados en comparación de características acústicas (sean en el dominio del tiempo, sean en el dominio espectral) no son capaces de discriminar sonidos guturales y balbuceos del usuario, dado su parecido acústico con los segmentos de voz. Sin embargo, la combinación de similaridad espectral y energía permite discriminar un mayor número de este tipo de ruidos de los segmentos de voz. Y el empleo de criterios de duración permite evitar que los segmentos de señal con este tipo de ruidos sean clasiﬁcados erróneamente como segmentos de voz.

Por otra parte, el modo en que se combinan los tres criterios en las etapas descritas del procedimiento optimiza la capacidad de clasiﬁcar correctamente los segmentos de voz y ruido. En concreto, la aplicación de un primer umbral de energía evita que segmentos con bajo contenido energético se tengan en cuenta en la comparación acústica. De esta forma, se evitan resultados impredecibles, algo habitual en procedimientos de detección basados en comparación acústica que no ﬁltran este tipo de segmentos, así como los que comparan un vector de características mixto, con características espectrales y energéticas. La utilización de un segundo umbral de energía, evita que en la primera etapa se eliminen segmentos de voz con niveles bajos de energía, ya que permite utilizar un primer umbral energético poco restrictivo, que elimine sólo los segmentos de ruido con muy bajo nivel de energía, dejándose la eliminación de segmentos de ruido de mayor potencia para la segunda etapa, en la que interviene el segundo umbral energético, más restrictivo. La utilización combinada de los umbrales acústicos y energético en la segunda etapa permite discriminar los segmentos de ruido de los de voz: por un lado, la exigencia de superar ambos umbrales evita clasiﬁcar como voz los segmentos de ruido de alta energía pero con características espectrales diferentes de la voz (ruidos no estacionarios, como golpes o chasquidos) y los segmentos de ruido similares acústicamente a la voz pero con baja energía (balbuceos y sonidos guturales); por otro lado, la utilización de dos comparaciones independientes en lugar de un vector de características mixto (acústico y energético) permite ajustar el procedimiento de detección. El empleo de criterios de duración en esta segunda etapa (necesidad de superar un umbral de puntuaciones acústicas acumuladas al inicio del segmento de voz, y de concatenar un número mínimo de tramas de señal de ruido al ﬁnal del mismo), permite detectar como ruido los segmentos de señal con ruidos no estacionarios de corta duración, así como clasiﬁcar como voz los segmentos correspondientes a sonidos que, aun siendo voz, tienen menor sonoridad, como es el caso de los fonemas correspondientes a consonantes oclusivas y fricativas (k, t, s,...). Finalmente, el empleo de la tercera etapa permite hacer un ﬁltrado ﬁnal, eliminando los segmentos de ruido que han sido clasiﬁcados como voz pero no alcanzan la duración mínima, corrigiendo los errores de las dos primeras etapas del procedimiento con un método diferente respecto a todos los utilizados en otros procedimientos.

La correcta clasiﬁcación de los tramos de señal con ruidos de energía alta y con balbuceos, hace que el procedimiento se puede emplear en sistemas de reconocimiento en diferentes entornos: oﬁcina, hogar, interior de automóviles, etc., y con diferentes canales de utilización (microfónico o telefónico). Asimismo, es aplicable en diferentes tipos de aplicaciones vocales: servicios vocales de información, control vocal de equipos, etc.

Breve descripción de los dibujos

Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características de la invención, a continuación se pasa a describir de manera breve un modo de realización de la invención, como ejemplo ilustrativo y no limitativo de ésta.

La Figura 1 representa un diagrama de bloques del procedimiento de detección de segmentos de voz.

La Figura 2 muestra un diagrama de estados del proceso de clasiﬁcación de tramas de voz y ruido.

La Figura 3 muestra el procedimiento de comprobación de tramas que cumplen simultáneamente umbrales acústico y energético.

La Figura 4 representa el Diagrama de ﬂujo de la validación de umbrales de duración.

Descripción de una realización preferida de la invención

De acuerdo con la realización preferida de la invención, el procedimiento de detección de segmentos de voz y ruido se lleva a cabo en tres etapas.

Como paso previo al procedimiento se divide la señal de entrada en tramas de muy corta duración (entre 5 y 50 milisegundos), que son procesadas una tras otra.

Como se muestra en la ﬁgura 1, en una primera etapa 10, para cada trama 1 se calcula su energía. Se calcula (bloque 11: cálculo energía media N últimas tramas) el promedio del valor de la energía para esta trama y las N tramas anteriores, siendo N un número entero cuyos valores varían dependiendo del entorno; típicamente N=10 en entornos poco ruidosos y N>10 para entornos ruidosos. Tras ello, se compara (bloque 12: validación umbral de energía media) este valor medio con un primer umbral de energía Umbral_energ1, cuyo valor es modiﬁcado en la segunda etapa en función del nivel de ruido, y siendo conﬁgurable el valor inicial del mismo; típicamente, para tramas de 10 ms, Umbral_energ1=15, valor que puede ajustarse según la aplicación. Si el valor medio de energía de las últimas tramas no supera dicho primer umbral de energía Umbral_energ1, la trama es clasiﬁcada deﬁnitivamente como ruido y se ﬁnaliza el procesado de la misma, comenzando el proceso de la siguiente trama de la señal. Si, por el contrario, el valor medio sí supera dicho primer umbral de energía, la trama continúa procesándose, pasando a la segunda etapa 20 del procedimiento.

En la segunda etapa 20 se realizan dos procesos:

-: una comparación estadística de la trama que se está procesando con unos modelos acústicos de voz y de ruido (bloque 21: comparación estadística con modelos acústicos (algoritmo Viterbi)), y

-: un proceso de clasiﬁcación de la trama (bloque 22: clasiﬁcación de tramas) como voz o ruido (véase ﬁgura 2).

Para llevar a cabo la comparación estadística, se obtiene en primer lugar un vector de características consistente en un conjunto de parámetros espectrales obtenidos a partir de la señal. En concreto, se selecciona un subconjunto de los parámetros que componen el vector de características propuesto en el estándar ETSI ES 202 050.

A continuación se describe cómo se realiza la selección del subconjunto de parámetros:

-: Se estiman en primer lugar las funciones densidad de probabilidad del valor de cada uno de los parámetros para las tramas de voz y las de ruido, a partir de los valores del parámetro obtenidos con un conjunto de señales acústicas de voz y ruido distintas de las que se van a analizar.

-: Haciendo uso de las funciones densidad de probabilidad estimadas, se calcula la probabilidad de error de clasiﬁcación de cada parámetro.

-: Se crea una lista de los parámetros ordenados de menor a mayor valor de esta probabilidad de error.

-: Se elige un subconjunto formado por los N primeros parámetros de la lista, estando el valor de N comprendido entre 0 y 39. Típicamente N=5, pero puede variar en función de la aplicación.

La comparación estadística requiere la existencia de unos modelos acústicos de voz y ruido. En concreto, se emplean modelos ocultos de Márkov (HMM, Hidden Markov Model) para modelar estadísticamente dos unidades acústicas: una representa las tramas de voz y otra representa las tramas de ruido. Estos modelos se obtienen antes de utilizar el procedimiento de detección de segmentos de voz y ruido de la presente invención. Para ello, con carácter previo, se entrenan estas unidades acústicas, utilizando para ello grabaciones que contienen segmentos de voz y ruido etiquetados como tales.

La comparación se lleva a cabo utilizando el algoritmo de Viterbi. De esta forma, a partir del vector de características obtenido en la trama que se está procesando, de los modelos estadísticos de voz y ruido, y de los datos de comparación de las tramas procesadas anteriormente, se determina la probabilidad de que la trama actual sea voz y la probabilidad de que sea ruido. Asimismo se calcula un parámetro de puntuación acústica calculado al dividir la probabilidad de que la trama sea voz entre la probabilidad de que la trama sea ruido.

El proceso de clasiﬁcación de tramas (bloque 22) se lleva a cabo mediante un proceso de toma de decisión (véase ﬁgura 2) que tiene en cuenta el parámetro de puntuación acústica obtenido en el proceso de comparación estadística 21 y otros criterios, entre ellos, las decisiones de clasiﬁcación como voz o ruido de las tramas anteriores.

Esta ﬁgura 2 representa un diagrama de estados, en el que cuando se produce una transición (por ejemplo si la puntuación acústica es menor a “umbral_ac_1”), se pasa al estado indicado por la ﬂecha, y se llevan a cabo los procesos incluidos en dicho estado. Por este motivo los procesos aparecen en el siguiente estado, una vez realizada la transición.

Tal y como se muestra en la ﬁgura 2, los pasos del proceso de toma de decisión son los siguientes:

* Estado inicial 210: Se pone a cero un acumulador de puntuaciones acústicas, Acumulador punt. Acústicas (2101). Se clasiﬁcan como ruido las posibles tramas previas que estuviesen clasiﬁcadas de forma provisional como voz o como ruido (2102).

A continuación se compara el parámetro de puntuación acústica obtenido en la comparación estadística con un primer umbral acústico, Umbral_ac_1.

A) Si no supera dicho primer umbral acústico Umbral_ac_1 se realizan las siguientes acciones:

i) Se clasiﬁca deﬁnitivamente la trama actual como ruido (2102).

ii) Se actualiza el primer umbral de energía utilizado en la primera etapa, Umbral_energ1 (2103), obteniendo una media (ponderada por un factor de memoria) entre su valor actual y el valor de la energía de la trama actual. El factor de memoria es un valor entre 0 y 1; típicamente tiene un valor de 0.9, ajustable en función de la aplicación.

iii) Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.

B) En caso de que el parámetro de puntuación acústica obtenido en la comparación estadística supere dicho primer umbral acústico Umbral_ac_1, se realizan las siguientes acciones:

i) Se clasiﬁca provisionalmente la trama actual como voz (2201).

ii) Se actualiza el valor del acumulador de puntuaciones acústicas con el valor del parámetro de puntuación acústica obtenido en la comparación estadística (2202).

iii) Se comprueba (2203) si la energía de la señal supera un segundo umbral de energía, Umbral_energ2 (ver ﬁgura 3), calculado a partir del valor actual del primer umbral de energía Umbral_energ1 (utilizado en la primera etapa 10 del procedimiento), cuyo valor se obtiene multiplicando dicho primer umbral de energía Umbral_energ1 por un factor y sumándole un offset adicional. Este factor tiene un valor conﬁgurable entre 0 y 1, y el offset, también con valor conﬁgurable, puede adquirir valores tanto positivos como negativos, oscilando su valor absoluto entre 0 y 10 veces el valor del primer umbral de energía, Umbral_energ1. Si supera dicho segundo umbral de energía, Umbral_energ2, se inicia con valor 1 un primer contador de tramas consecutivas que superan tanto el primer umbral acústico Umbral_ac_1 (de la comparación estadística) como este segundo umbral de energía, Umbral_energ2.

iv) Se pasa al siguiente estado: estado de comprobación de inicio de segmento de voz 220.

v) Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.

* Estado de comprobación de inicio de segmento de voz 220: se compara el parámetro de puntuación acústica obtenido en la comparación estadística con el primer umbral acústico, Umbral_ac_1.

A) Si no supera dicho primer umbral acústico Umbral_ac_1 se realizan las siguientes acciones: i) Se clasiﬁcan como ruido (2102) tanto la trama en curso como todas las tramas anteriores clasiﬁcadas provisionalmente como voz. ii) Se ponen a cero el acumulador de puntuaciones acústicas (2101) y el primer contador de tramas consecutivas que superan tanto el segundo umbral de energía Umbral_energ_2 como el primer umbral de

puntuación acústica Umbral_ac_1. iii) Se vuelve (2204) al estado inicial 210. iv) Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.

B) En caso de que el parámetro de puntuación acústica obtenido en la comparación estadística supere dicho primer umbral acústico Umbral_ac_1, se realizan las siguientes acciones: i) Se clasiﬁca provisionalmente la trama actual como voz (2301 ó 2201). ii) Se comprueba (2303 ó 2203) si la energía de la señal supera el segundo umbral de energía, Umbral_energ2 (véase ﬁgura 3).

•: Si lo supera se incrementa (2203A en ﬁg. 3) el primer contador de tramas consecutivas que superan tanto el primer umbral acústico Umbral_ac_1 de la comparación estadística como el segundo umbral de energía Umbral_energ2.

•: Si no lo supera se pone a cero (2203B en ﬁg. 3) dicho primer contador de tramas consecutivas.

iii) Se incrementa el valor del acumulador de puntuaciones acústicas (2202) sumándole el valor del parámetro de puntuación acústica obtenido en la comparación estadística.

iv) Se comprueba si el valor del acumulador de puntuaciones acústicas supera un segundo umbral de puntuaciones acústicas acumuladas, Umbral_ac_2.

•: Si no supera dicho segundo umbral acústico Umbral_ac_2 se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.

•: Si supera dicho segundo umbral acústico Umbral_ac_2: 1º) Se pasa al estado de segmento de voz encontrado 230. 2º) Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.

* Estado de segmento de voz encontrado 230: se compara el parámetro de puntuación acústica obtenido en la comparación estadística con el primer umbral acústico, Umbral_ac_1.

A) Si el parámetro de puntuación acústica supera dicho primer umbral acústico Umbral_ac_1 se realizan las siguientes acciones:

i) Se clasiﬁca provisionalmente la trama actual como voz (2301).

ii) Se comprueba (2303) si la energía de la señal supera el segundo umbral de energía Umbral_energ2 (ver ﬁg. 3).

• Si lo supera se incrementa (2203A en ﬁg. 3) el primer contador de tramas consecutivas que superan tanto el primer umbral acústico Umbral_ac_1 de la comparación estadística como el segundo umbral de energía Umbral_energ2.

• Si no lo supera se pone a cero (2203B en ﬁg. 3) dicho primer contador de tramas consecutivas. iii) Se pasa a procesar desde la primera etapa del procedimiento 10 la siguiente trama de señal. B) En caso de que el parámetro de puntuación acústica obtenido en la comparación estadística no supere el primer

umbral acústico, Umbral_ac_1, se realizan las siguientes acciones: i) Se clasiﬁca provisionalmente la trama actual como ruido (2401).

ii) Se pasa al estado de comprobación de ﬁn de segmento de voz 240.

iii) Se inicia a 1 (2302) un segundo contador de número de tramas consecutivas que no superan el umbral acústico modiﬁcado (la primera vez debe quedar por debajo de umbral_ac_1 para iniciar el contador; posteriormente los incrementos del contador se hacen cuando no se supere el umbral modiﬁcado (dividido por factor de histéresis)).

iv) Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.

* Estado de comprobación de ﬁn de segmento de voz 240: Se compara el parámetro de puntuación acústica obtenido en la comparación estadística con un umbral modiﬁcado resultante de dividir el primer umbral acústico Umbral_ac_1 por un factor de histéresis, Histéresis.

A) Si el parámetro de puntuación acústica supera dicho umbral modiﬁcado, Umbral_ac_1 /Histéresis se realizan las siguientes acciones:

i) Se clasiﬁca provisionalmente la trama actual como voz. Asimismo, se clasiﬁcan provisionalmente como voz las tramas anteriores que se encontraban clasiﬁcadas provisionalmente como ruido (2301).

ii) Se comprueba (2203 ó 2303) si la energía de la señal supera el segundo umbral de energía, Umbral_energ_2.

•: Si lo supera se incrementa (2203A en ﬁg. 3) el primer contador de tramas consecutivas que superan tanto el umbral modiﬁcado Umbral_ac_1 /Histéresis de la comparación estadística como el segundo umbral de energía Umbral_energ2.

iii) Se pasa al estado de segmento de voz encontrado 230.

B) En caso de que el parámetro de puntuación acústica obtenido en la comparación estadística no supere el umbral modiﬁcado Umbral_ac_1 /Histéresis, se realizan las siguientes acciones:

i) Se clasiﬁca provisionalmente la trama actual como ruido (2401).

ii) Se incrementa (2402) el segundo contador de número de tramas consecutivas que no superan el umbral acústico modiﬁcado.

iii) Se comprueba si dicho segundo contador de número de tramas consecutivas que no superan el umbral acústico modiﬁcado, Umbral_ac_1 /Histéresis es mayor que un umbral de duración de búsqueda de ﬁn de pulso de voz, Umbral_dur_ﬁn. Si es mayor, se pasa a la tercera etapa 30 del procedimiento de detección.

En caso contrario, se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal.

En la tercera etapa 30 del procedimiento de la presente invención se revisa la clasiﬁcación voz/ruido de las tramas

de señal llevada a cabo en la segunda etapa utilizando criterios de duración para así ﬁnalmente detectar los segmentos

de voz 2. Se hacen las siguientes comprobaciones (véase ﬁgura 4):

-: Si el máximo valor alcanzado durante la segunda etapa 20 por el primer contador de tramas consecutivas que superan tanto el primer umbral acústico Umbral_ac_1 como el segundo umbral de energía Umbral_ energ_2 es menor (300A) que un primer umbral de duración, Umbral_dur1, se considera que el segmento de voz detectado es espurio (310), y se descarta. En consecuencia, todas las tramas de señal clasiﬁcadas provisionalmente como voz y como ruido, que cumplan este criterio, se clasiﬁcan deﬁnitivamente como ruido.

-: Si el máximo valor alcanzado durante la segunda etapa 20 de dicho primer contador es mayor o igual (300B) que dicho primer umbral de duración, Umbral_dur_1, se comprueba (301) si el número total de todas las tramas clasiﬁcadas provisionalmente como voz supera un segundo umbral de duración Umbral_dur2.

• En caso de no superarlo (301A), se considera que el segmento de voz detectado es espurio (320) y, en consecuencia, todas las tramas de señal clasiﬁcadas provisionalmente como voz o como ruido que cumplan este criterio, se clasiﬁcan deﬁnitivamente como ruido.

• Si se supera (301B) este segundo umbral de duración, Umbral_dur2, las tramas clasiﬁcadas provisionalmente como voz se clasiﬁcan de forma deﬁnitiva como voz (330), y las tramas clasiﬁcadas provisionalmente como ruido se clasiﬁcan deﬁnitivamente como ruido.

En la tercera etapa se llevan a cabo, además, las siguientes acciones:

-: Se actualiza el primer umbral de energía Umbral_energ1 utilizado en la primera etapa 10 del procedimiento, obteniendo una media (ponderada por un factor de memoria) entre su valor actual y el valor de la energía de la trama actual.

-: Se pasa a procesar desde la primera etapa 10 del procedimiento la siguiente trama de señal. En caso de que dicha trama pase a la segunda etapa 20 del procedimiento, el proceso de toma de decisión comenzará desde el estado inicial 210.

La invención ha sido descrita según una realización preferente de la misma, pero para el experto en la materia resultará evidente que múltiples variaciones pueden ser introducidas en dicha realización preferente sin exceder el objeto de la invención reivindicada.

Claims

REIVINDICACIONES

1. Procedimiento de detección de segmentos de voz (2) y de ruido en una señal digital de audio de entrada, estando dividida dicha señal de entrada en una pluralidad de tramas (1) que comprende:

-

una primera etapa (10) en la que se realiza una primera clasiﬁcación de una trama como ruido si el valor medio de la energía para esta trama y las N tramas anteriores no es superior a un primer umbral de energía (umbral_energ1), siendo N un número entero mayor que 1;

-

una segunda etapa (20) en la que para cada trama que no ha sido clasiﬁcada como ruido en la primera etapa se decide si dicha trama se clasiﬁca como ruido o como voz basándose en combinar al menos un primer criterio de similaridad espectral de la trama con modelos acústicos de ruido y de voz, un segundo criterio de análisis de energía de la trama respecto a un segundo umbral de energía (umbral_energ2) y un tercer criterio de duración consistente en utilizar una máquina de estados para detectar el inicio de un segmento como acumulación de un número determinado de tramas consecutivas con parecido acústico superior a un primer umbral acústico (umbral_ac1) y otro número determinado de tramas consecutivas con parecido acústico inferior a dicho primer umbral acústico para detectar el ﬁn de dicho segmento;

-

una tercera etapa (30) en la que se revisa la clasiﬁcación como voz o como ruido de las tramas de señal llevada a cabo en la segunda etapa utilizando criterios de duración, clasiﬁcando como ruido los segmentos de voz de duración inferior a un primer umbral de duración mínima de segmento, así como aquellos que no contienen un determinado número de tramas consecutivas que simultáneamente superan dicho umbral acústico y dicho segundo umbral de energía.
2. Procedimiento según las reivindicación 1, en el que en dicha tercera etapa se utilizan dos umbrales de duración:

-

un primer umbral (umbral_dur1) de duración mínima de segmento o número mínimo de tramas consecutivas clasiﬁcadas como voz o como ruido;

-

un segundo umbral de duración (umbral_dur2) de tramas consecutivas que en la segunda etapa cumplen tanto el criterio de similaridad espectral como el criterio de análisis de energía de la trama.
3.

Procedimiento según cualquiera de las reivindicaciones 1-2, en el que dicho criterio de similaridad espectral usado en la segunda etapa consiste en un análisis comparativo de características espectrales de dicha trama con características espectrales de dichos modelos acústicos de ruido y de voz previamente establecidos.
4.

Procedimiento según la reivindicación 3, en el que dicho análisis comparativo de características espectrales se realiza utilizando el algoritmo de Viterbi.
5.

Procedimiento según cualquiera de las reivindicaciones 1-4, en el que dichos modelos acústicos de ruido y de voz previamente establecidos se obtienen modelando estadísticamente dos unidades acústicas, de ruido y voz respectivamente, mediante modelos ocultos de Márkov.
6.

Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la máquina de estados comprende, al menos, un estado inicial (210), un estado en el que se comprueba que se ha iniciado un segmento de voz (220), un estado en el que se comprueba que continúa el segmento de voz (230), y un estado en el que se comprueba que ha ﬁnalizado el segmento de voz (240).
7.

Procedimiento según cualquiera de las reivindicaciones anteriores, en el que en la segunda etapa, para cada trama que no ha sido clasiﬁcada como ruido en la primera etapa:

-

se calcula una probabilidad de que la trama sea de ruido comparando unas características espectrales de dicha trama con esas mismas características espectrales de un grupo de tramas clasiﬁcadas como ruido que no pertenecen a la señal que se está analizando;

-

se calcula una probabilidad de que la trama sea de voz comparando unas características espectrales de dicha trama con esas mismas características espectrales de un grupo de tramas clasiﬁcadas como voz que no pertenecen a la señal que se está analizando;

-

se calcula un estado siguiente de la máquina de estados en función de al menos, un ratio entre la probabilidad de que la trama sea de voz y la probabilidad de que la trama sea de ruido, y de un estado actual de dicha máquina de estados.
8.

Procedimiento según la reivindicación 7 cuando depende de la 6, en el que para producirse una transición entre el estado en el que se comprueba que se ha iniciado un segmento de voz (220) y el estado en el que se comprueba que continúa un segmento de voz (230), se requieren, al menos, dos tramas consecutivas en las que el ratio entre la probabilidad de que la trama sea de voz y la probabilidad de que la trama sea de ruido sea superior a un primer umbral acústico.
9.

Procedimiento según la reivindicación 7 cuando depende de la 6 o según la reivindicación 8, en el que para producirse una transición entre el estado que comprueba que se ha ﬁnalizado un segmento de voz (240) y el estado inicial (210) se requieren, al menos, dos tramas consecutivas en las que el ratio entre la probabilidad de que la trama sea de voz y la probabilidad de que la trama sea de ruido sea inferior a un primer umbral acústico dividido por un factor.
10.

Procedimiento según cualquiera de las reivindicaciones 1-9, en el que el primer umbral de energía utilizado en la primera etapa se actualiza dinámicamente ponderando su valor actual y el valor de energía de las tramas clasiﬁcadas como ruido en la segunda y la tercera etapas.
11.

Procedimiento según la reivindicación 1 -2, en el que el criterio de análisis de la energía de la trama (2203, 2303) consiste en superar un segundo umbral de energía, calculado al multiplicar el primer umbral de energía por un factor y sumarle un offset.

OFICINA ESPAÑOLA DE PATENTES Y MARCAS

N.º solicitud: 200930819

ESPAÑA

Fecha de presentación de la solicitud: 08.10.2009

Fecha de prioridad:

INFORME SOBRE EL ESTADO DE LA TECNICA

51 Int. Cl. : Ver Hoja Adicional

DOCUMENTOS RELEVANTES

Categoría

Documentos citados Reivindicaciones afectadas

A A A A

EP 1659570 A1 (LG ELECTRONICS INC) 24.05.2006 US 2007055511 A1 ( GOTANDA HIROMU et al.) 08.03.2007 US 2006053003 A1 ( SUZUKI TETSU et al.) 09.03.2006 US 6947892 B1 (BAUER JOSEF et al.) 20.09.2005 1 1 1 1

Categoría de los documentos citados X: de particular relevancia Y: de particular relevancia combinado con otro/s de la misma categoría A: refleja el estado de la técnica O: referido a divulgación no escrita P: publicado entre la fecha de prioridad y la de presentación de la solicitud E: documento anterior, pero publicado después de la fecha de presentación de la solicitud

El presente informe ha sido realizado • para todas las reivindicaciones • para las reivindicaciones nº:

Fecha de realización del informe 02.12.2011

Examinador M. C. González Vasserot Página 1/4

INFORME DEL ESTADO DE LA TÉCNICA

Nº de solicitud: 200930819

CLASIFICACIÓN OBJETO DE LA SOLICITUD G10L15/04 (2006.01)

G10L11/02 (2006.01) G10L15/20 (2006.01) Documentación mínima buscada (sistema de clasificación seguido de los símbolos de clasificación)

G10L

Bases de datos electrónicas consultadas durante la búsqueda (nombre de la base de datos y, si es posible, términos de búsqueda utilizados) INVENES, EPODOC, WPI

Informe del Estado de la Técnica Página 2/4

OPINIÓN ESCRITA

Nº de solicitud: 200930819

Fecha de Realización de la Opinión Escrita: 02.12.2011

Declaración

Novedad (Art. 6.1 LP 11/1986)

Reivindicaciones Reivindicaciones 1-11 SI NO

Actividad inventiva (Art. 8.1 LP11/1986)

Reivindicaciones Reivindicaciones 1-11 SI NO

Se considera que la solicitud cumple con el requisito de aplicación industrial. Este requisito fue evaluado durante la fase de examen formal y técnico de la solicitud (Artículo 31.2 Ley 11/1986).

Base de la Opinión.-

La presente opinión se ha realizado sobre la base de la solicitud de patente tal y como se publica.

Informe del Estado de la Técnica Página 3/4

OPINIÓN ESCRITA

Nº de solicitud: 200930819

1. Documentos considerados.-

A continuación se relacionan los documentos pertenecientes al estado de la técnica tomados en consideración para la realización de esta opinión.

Documento

Número Publicación o Identificación Fecha Publicación

D01

EP 1659570 A1 (LG ELECTRONICS INC ) 24.05.2006

D02

US 2007055511 A1 (GOTANDA HIROMU et al.) 08.03.2007

D03

US 2006053003 A1 (SUZUKI TETSU et al.) 09.03.2006

D04

US 6947892 B1 (BAUER JOSEF et al.) 20.09.2005
2. Declaración motivada según los artículos 29.6 y 29.7 del Reglamento de ejecución de la Ley 11/1986, de 20 de marzo, de Patentes sobre la novedad y la actividad inventiva; citas y explicaciones en apoyo de esta declaración

Los documentos citados solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Así, la invención reivindicada se considera que cumple los requisitos de novedad, actividad inventiva y aplicación industrial. 1.-El objeto de la presente solicitud de patente se refiere al área de la tecnología del habla, particularmente reconocimiento del habla y verificación del locutor, en concreto a la detección de voz y ruido. Tiene como objetivo un procedimiento de detección de segmentos de voz y de ruido en una señal digital de audio de entrada, estando dividida dicha señal de entrada en una pluralidad de tramas. La detección y delimitación de los segmentos de voz pronunciados es fundamental por dos motivos. En primer lugar, por motivos de eficiencia computacional: los algoritmos utilizados en reconocimiento del habla son bastante exigentes en lo que a carga computacional se refiere, por lo que aplicarlos a toda la señal acústica, sin eliminar los periodos en los que no hay presente voz del usuario, supondría disparar la carga de procesamiento y, en consecuencia, provocaría retrasos considerables en la respuesta de los sistemas de reconocimiento. En segundo lugar, y no menos importante, por motivos de eficacia: la eliminación de los segmentos de señal que no contienen voz del usuario, limita considerablemente el espacio de búsqueda del sistema de reconocimiento, reduciendo sustancialmente su tasa de error. Por estos motivos, los sistemas comerciales de reconocimiento automático del habla incorporan un módulo de detección de segmentos de voz y de ruido. Esta detección de segmentos se lleva a cabo en tiempo real y, por tanto, puede aplicarse en sistemas de reconocimiento automático del habla de carácter interactivo. 2.-El problema planteado por el solicitante es que en los métodos propuestos hasta el momento, tanto los basados en la comparación de parámetros con umbrales, como los basados en clasificación estadística, son insuficientemente robustos en condiciones desfavorables de ruido, especialmente en presencia de ruido no estacionario, lo que provoca un aumento de los errores de detección de segmentos de voz en tales condiciones. Por este motivo, la utilización de estos métodos en entornos particularmente ruidosos, como es el caso del interior de automóviles, presenta importantes problemas. Particularmente, su funcionamiento se degrada considerablemente ante la presencia de ruidos de carácter no estacionario. En estos casos, el empleo de métodos de detección de segmentos de voz basados en comparación de parámetros de la señal con umbrales, o bien basados en comparaciones estadísticas, no proporciona resultados adecuados. En consecuencia, los reconocedores automáticos del habla obtienen numerosos resultados erróneos, así como frecuentes rechazos de las pronunciaciones del usuario, lo que dificulta enormemente la utilización de este tipo de sistemas. El documento D1 puede considerarse como el representante del estado de la técnica más cercano ya que en este documento confluyen la mayoría de las características técnicas reivindicadas.

Análisis de la reivindicación independiente 1

D1 se diferencia del documento de solicitud de patente en que no existe la segunda etapa, es decir: Por un lado, no se realiza la utilización simultánea de tres criterios: similaridad espectral, valor energético y duración (es necesario un mínimo número de tramas consecutivas similares espectralmente al modelo de ruido al final del segmento para dar éste por terminado). Y por otro, no hay utilización de diferentes estados, el empleo de diferentes estados introduce cierta histéresis tanto para detectar el comienzo del segmento (hace falta acumular varias tramas con parecido acústico superior al umbral) como para el final del mismo (histéresis). Esto hace que mejore el funcionamiento eliminando falsos principios y finales de segmento. La reivindicación 1 es nueva (Art. 6.1 LP 11/1986) y tiene actividad inventiva (Art. 8.1 LP11/1986).

Análisis del resto de los documentos

De este modo, ni el documento D1, ni ninguno del resto de los documentos citados en el Informe del Estado de la Técnica, tomados solos o en combinación, revelan la invención en estudio tal y como es definida en las reivindicaciones independientes, de modo que los documentos citados solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Además, en los documentos citados no hay sugerencias que dirijan al experto en la materia a una combinación que pudiera hacer evidente la invención definida por estas reivindicaciones y no se considera obvio para una persona experta en la materia aplicar las características incluidas en los documentos citados y llegar a la invención como se revela en la misma.

Informe del Estado de la Técnica Página 4/4