ES2276845T3

ES2276845T3 - Metodos y aparatos para la clasificacion de voz robusta.

Info

Publication number: ES2276845T3
Application number: ES01984988T
Authority: ES
Inventors: Pengjun Huang
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-12-08
Filing date: 2001-12-04
Publication date: 2007-07-01
Anticipated expiration: 2021-12-04
Also published as: KR20090026805A; BR0116002A; CN1543639A; EP1340223A2; DE60123651D1; JP4550360B2; WO2002047068A3; HK1067444A1; WO2002047068A2; JP5425682B2; DE60123651T2; KR100895589B1; JP2010176145A; TW535141B; AU2002233983A1; CN101131817A; CN101131817B; BRPI0116002B1; KR100908219B1; KR20030061839A

Abstract

Método para la aplicación de un motor turbodiesel con inyección electrónica a un vehículo autopropulsado como una motocicleta, un "scooter", un "quad " o un triciclo a motor, y a generadores eléctricos y maquinaria agrícola, caracterizado porque dicha aplicación consiste en la adaptación de un motor turbodiesel con inyección electrónica de tipo "common rail" comercial (40) completo o en la utilización de las partes de un motor turbodiesel con inyección electrónica de tipo "common rail" comercial (40), excepto el bloque (52), añadiendo un nuevo bloque (120), en donde dicho motor (40) puede ser un motor monocilíndrico (39), un motor bicilíndrico en línea (30), un motor tricilíndrico en línea (31), un motor tetracilíndrico en línea (32), un motor bicilíndrico en "V" (33), un motor tetracilíndrico en "V" (34), un motor bicilíndrico "boxer" (35), y el motor turbodiesel con inyección electrónica adaptado (50) puede montarse sobre los siguientes tipos de chasis: de motocicleta: tubular de acero ode aluminio (11), de doble viga de aluminio (12), tubular cuadrado de acero (13), doble viga portante (14) y tubular de doble cuna (15); convencional de "scooter" (26); convencional de "quad" (27); que el chasis sea el propio motor (28); y en los chasis de generadores eléctricos y de maquinaria agrícola.

Description

Métodos y aparatos para la clasificación de voz robusta.

Antecedentes de la invención I. Campo

Las realizaciones que se presentan se refieren al campo del procesamiento de voz. Particularmente, las realizaciones que se presentan tratan sobre un método y un aparato nuevos y mejorados para la clasificación de voz robusta.

II. Antecedentes

La transmisión de voz mediante técnicas digitales se ha difundido ampliamente, particularmente en aplicaciones radiotelefónicas digitales y de larga distancia. Esto, en cambio, ha creado el interés de determinar la cantidad mínima de información que puede ser enviada a través de un canal a la vez que se mantiene la calidad percibida de voz recompuesta. Si se transmite voz mediante simple muestreo y digitalización, se requiere una velocidad de transmisión de datos en el orden de los sesenta y cuatro kilobits por segundo (kbps) para obtener la calidad de la conversación de los teléfonos análogos convencionales. Sin embargo, a través del uso del análisis de voz, seguido de una codificación, transmisión y re-síntesis adecuadas en el receptor, se puede lograr una reducción significativa de la velocidad de transmisión de datos. Mientras más preciso sea el análisis de voz, más adecuadamente se realizará la codificación de la información, reduciendo así la velocidad de transmisión de datos.

A los dispositivos que emplean técnicas para comprimir voz mediante la extracción de parámetros que se relacionan con un modelo de generación de voz humana, se les llama codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo o segmentos/tramos de análisis. Los codificadores de voz típicamente constan de un codificador y un descodificador, o un codec. El codificador analiza el segmento de voz para extraer determinados parámetros relevantes, y después convertir los parámetros a representación binaria, o sea, a un conjunto de bits o a un paquete de datos binarios. Los paquetes de datos se transmiten a través del canal de comunicación a un receptor y a un decodificador. El decodificador procesa los paquetes de datos, los reconvierte para producir los parámetros y después re-sintetiza los segmentos de voz usando los parámetros reconvertidos.

La función del codificador de voz es comprimir la señal digitalizada de voz en una señal de baja frecuencia de bits al eliminar todas las redundancias naturales inherentes a voz. La compresión digital se logra al representar el segmento de voz de entrada con un conjunto de parámetros y empleando la cuantificación para representar los parámetros con un conjunto de bits. Si el segmento de voz tiene un número de bits (NI) y el paquete de datos producido por el codificador de voz tiene un número de bits (No), el factor de compresión obtenido por el codificador de voz es Cr = NI/No. El reto consiste en mantener la calidad de voz de voz decodificada de alta a la vez que se obtiene el factor de compresión requerido. El comportamiento de un codificador de voz depende de (1) cuán bien funciona el modelo de voz, o cuán bien funciona la combinación de los procesos de análisis y síntesis que se describen anteriormente, y (2) de cuán bien funciona el proceso de cuantificación de parámetros a la frecuencia requerida de bits No por cada segmento. El objetivo del modelo de voz es, por lo tanto, captar la esencia de la señal de voz, o la calidad de voz deseada, con un conjunto pequeño de parámetros para cada segmento.

Los codificadores de voz pueden ser implementados como codificadores de dominio de tiempo, los cuales tratan de captar la forma de onda de un determinado período de tiempo de voz mediante el empleo del procesamiento de alta resolución de tiempo para codificar pequeños segmentos de voz (usualmente subsegmentos de 5 milisegundos (ms) de una vez. Para cada subsegmento se encuentra una información representativa de alta precisión perteneciente a un libro de código por medio de varios algoritmos de búsqueda conocidos en la técnica. Alternativamente, los codificadores de voz pueden ser implementados como codificadores de dominio de frecuencia, los cuales tienen como objetivo captar el espectro de voz a corto plazo del segmento de voz con un conjunto de parámetros (análisis) y utilizan el proceso de síntesis correspondiente para recrear la forma de onda de voz proveniente de los parámetros espectrales. El cuantificador de parámetros preserva los parámetros mediante la representación de éstos con representaciones almacenadas de vectores de código en correspondencia con las técnicas de cuantificación conocidas descritas en A. Gerso & R.M. Gray, Vector Quantization and Signal Compression (Cuantificación de los vectores y la compresión de la señal (1992).

Un codificador de períodos de tiempo de voz muy conocido es el Código de Predicción Lineal Excitada (por sus siglas en inglés: CELP, Code Excited Linear Predictive), codificador descrito en L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals (Procesamiento Digital de las Señales de Voz) 396-453 (1978). En un codificador CELP, las correlaciones a corto plazo o redundancias en la señal de voz son eliminadas por un análisis de Predicción Lineal (Por sus siglas en inglés: LP, Lineal Predictive), el cual halla los coeficientes de las ondas del sonido que caracterizan a una vocal determinada a corto plazo. Al aplicar el filtro de predicción a corto plazo al segmento de voz, se genera una señal residual LP, la cual es posteriormente modelada y cuantificada con parámetros de filtros de predicción a largo plazo y una posterior codificación estocástica. De ahí que la codificación CELP divide la tarea de codificar la forma de onda de voz en un periodo de tiempo en tareas separadas de codificación de coeficientes de los filtros PL a corto plazo y la codificación del residuo LP. La codificación de períodos de tiempo puede efectuarse a una frecuencia fija (por ejemplo, usando el mismo número de bits, No. para cada segmento) o una frecuencia variable (en la cual las diferentes frecuencias de bits son usadas para diferentes tipos de contenidos del segmento). Los codificadores de frecuencia variable sólo intentan usar la cantidad de bits necesarios para codificar los parámetros codec a un nivel adecuado para obtener la calidad deseada. Un ejemplo de codificador de frecuencia variable CELP se describe en la Patente de E.U. No. 5 414 796, la cual fue asignada al cesionario de las

\hbox{realizaciones que se muestran en el presente 
documento.}

Los codificadores de dominio de tiempo tales como el codificador CELP típicamente cuentan con un mayor número de bits, No, por segmento para preservar la exactitud de la forma de onda de voz en un dominio de tiempo. Tales codificadores típicamente transmiten una excelente calidad de voz siempre que el número de bits, No, por segmento sea relativamente grande (por ejemplo, 8 kbps ó más). Sin embargo, a frecuencias bajas de bits (4 kbps e inferiores), los codificadores de dominio de tiempo cesan de mantener alta calidad y comportamiento robusto debido al limitado número de bits disponibles. A baja frecuencia de bits, el limitado espacio del codificador reduce la capacidad de adaptación a la forma de onda de los codificadores de dominio de tiempo convencionales, los cuales se usan tan exitosamente en aplicaciones comerciales de más alta frecuencia.

Típicamente, los esquemas CELP emplean un filtro de predicción a corto plazo (por sus siglas en inglés: STP, ``Short Term Prediction Filter) y un filtro de predicción a largo plazo (en inglés: LTP, Long Term Prediction Filter). Se emplea un enfoque de Análisis por Síntesis (en inglés: AbS, Análisis by Synthesis) en un codificador para hallar las demoras/y ganancias de LTP, así como los mejores codificadores estocásticos de ganancias e índices. El estado actual de la técnica de los codificadores CELP tales como el Codificador de Frecuencia Variable Mejorada (en inglés: EVRC, Enhanced Variable Rate Coder) puede alcanzar una voz sintetizada de alta calidad a una frecuencia de transmisión de datos de aproximadamente 8 kilobits por segundo.

También se conoce que los sonidos sordos no muestran periodicidad. El ancho de banda consumido para codificador el filtro LTP en los esquemas convencionales CELP, no se usa tan eficientemente para los sonidos sordos como para los sonoros, en los cuales la periodicidad de voz es fuerte y el filtrado LTP es comprensible. Por lo tanto, se necesita un esquema de codificación más eficiente (por ejemplo, de baja frecuencia de bits) para los sonidos sordos. La clasificación vocal exacta es necesaria para seleccionar los sistemas de codificación más eficientes y para obtener la menor velocidad de transmisión de datos.

Para codificar a baja frecuencia de bits se han desarrollado varios métodos de codificación espectral o de dominio de frecuencia de voz, en los cuales la señal de voz es analizada como una evolución de variación de tiempo del espectro. Ver, por ejemplo, R.J. McAulay & T.F. Codificador Sinusoidal Quatieri, en la Codificación y Síntesis de voz, cap. 4 (W.B. Keijn & K.K. Paliwal eds., 1995). En codificadores espectrales, el objetivo es modelar o predecir el espectro vocal a corto plazo de cada segmento del discurso con un conjunto de parámetros espectrales, más que imitar de manera precisa la forma de onda de voz de tiempo variable. Los parámetros espectrales son entonces codificados y se crea un segmento de salida de voz con los parámetros decodificados. La voz sintetizada resultante no coincide con la forma de onda del discurso original, pero ofrece una calidad percibida similar. Ejemplos de codificadores de dominio de frecuencia que son bien conocidos en la técnica incluyen los codificadores de excitación multibanda (por sus siglas en inglés: EMBs, Multiband Excitation Coders), codificadores de transformación sinusoidal (CTSs, Sinusoidal Transform Coders), y codificadores harmónicos (CHs, Harmonic Coders). Tales codificadores de dominio de frecuencia ofrecen un modelo paramétrico de alta calidad, ya que tienen un conjunto de parámetros compactos que pueden ser cuantificados de forma exacta con el bajo número de bits disponible a baja frecuencia de bits.

No obstante, la codificación a baja frecuencia de bits impone restricciones serias como una resolución limitada de codificación, o un espacio limitado en el libro de código, lo cual limita la efectividad de un mecanismo de codificación simple, pues no permite que el codificador represente varios tipos de segmentos de voz bajo diferentes condiciones de ruidos parásitos de fondo con igual exactitud. Por ejemplo, los codificadores convencionales de dominio de frecuencia de baja frecuencia de bits no transmiten la información de fase para segmentos de voz. En su lugar, la información de fase es recompuesta mediante el uso, al azar, generado artificialmente, de valores de fase inicial y técnicas de interpolación lineal. Ver, por ejemplo, H. Yang et al., Interpolación de Fase Cuadrática para la Síntesis de los Sonidos Sonoros. En el Modelo EMB, en 29 Electronic Letters 856-57 (Mayo 1993). Debido a que la información de fase se genera artificialmente, incluso si las amplitudes de los sinusoides están perfectamente preservadas por el proceso de cuantificación/de-cuantificación, el discurso de salida producido por el codificador de dominio de frecuencia no estará sincronizado con el discurso original (por ejemplo, los pulsos mayores no estarán en sincronía). Por lo tanto, se ha demostrado la dificultad para adoptar cualquier medida de comportamiento funcionamiento de lazo cerrado, tal como, por ejemplo, la relación señal - ruido parásito (en inglés:SNR, Signal to Noise Ratio) o SNR de percepción, en los codificadores de dominio de frecuencia.

Una técnica efectiva para codificar la voz eficientemente a baja frecuencia de bits es la codificación multi-modo. Las técnicas multi-modo han sido utilizadas para realizar codificaciones de voz de baja frecuencia en conjunto con un proceso de decisión de modo de lazo abierto. Tal técnica de codificación multi-modo está descrita en Amitava Das et al., Multi-modo y Codificación de Frecuencia Variable Vocal, en Codificación y Síntesis Vocal, cap. 7 (W.B. Keijn & K.K. paliwal eds., 1995). Los codificadores multi-modo convencionales aplican diferentes modos, o algoritmos de codificación-decodificación, a diferentes tipos de segmentos de voz. Cada modo, o proceso de codificación-decodificación, es personalizado para representar un cierto tipo de segmento del discurso, tal como, por ejemplo, sonidos sonoros, sonidos sordos, o sonidos de fondo (no vocálicos) de la manera más eficiente. El éxito de tales técnicas de codificación multi-modo depende en gran medida de las decisiones de modo correctas o de las clasificaciones de voz. Un mecanismo de modo de lazo abierto se efectúa típicamente mediante la extracción de un número de parámetros del segmento y la evaluación de los parámetros según ciertas características temporales y espectrales, y basando la decisión de modo en la evaluación. La decisión de modo es de esta forma realizada sin conocer de antemano la condición exacta de voz de salida, o sea, cuan próxima estará la voz de salida a la voz de entrada en cuanto a la calidad de voz u otras medidas de comportamiento. Una decisión de modo de lazo abierto se describe en la Patente de E.U. No. 5 414 796, la cual fue asignada al cesionario de la presente invención.

La codificación multimodo puede ser de frecuencia fija, usando el mismo número de bits No. por cada segmento; o de frecuencia variable, en la cual las diferentes frecuencias de bits son usadas para diferentes modos. El objetivo en la codificación de frecuencia variable es usar solamente la cantidad de bits necesaria para codificar los parámetros codec a un nivel adecuado para obtener la calidad deseada. Como resultado, se puede obtener la misma calidad de voz que la que se obtiene con el codificador de frecuencia fija, de frecuencia más alta, a una frecuencia promedio significativamente más baja, usando técnicas de frecuencia variable (TFV).

En la Patente de E.U. No. 5 414 796 se describe, a modo de ejemplo, un codificador de voz de frecuencia variable. Actualmente hay un incremento de interés investigativo y una gran necesidad comercial para desarrollar un codificador de voz de alta calidad que funcione con medianas a bajas frecuencias de bits (o sea, en un rango de 2.5 a 4 kbps e inferiores). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía-Internet, aplicaciones variadas de multimedia y de flujo de voz (voice streaming), correo de voz y otros sistemas de almacenamiento de voz. Las fuerzas motrices la constituyen la necesidad de una alta capacidad y la demanda de un comportamiento robusto en situaciones de pérdida de paquetes. Varios esfuerzos recientes para la estandardización en la codificación de voz constituyen otra fuerza motriz que impulsa la investigación y el desarrollo de los algoritmos de la codificación de voz de baja frecuencia. Un codificador de voz de baja frecuencia crea más canales, o usuarios, por aplicaciones permisibles de la amplitud de la banda. Un codificador de voz de baja frecuencia acoplado a una capa adicional de un canal de codificación apropiado puede adecuarse al volumen total de bits de las especificaciones del codificador y tener un comportamiento robusto bajo condiciones de error de canal.

El codificador de voz multi-modo TFV es por lo tanto, un mecanismo efectivo para codificar la voz a una baja frecuencia de bits. Los esquemas multi-modo convencionales requieren el diseño de esquemas de codificación eficientes, o modos, para varios segmentos de voz (por ejemplo: sonidos sordos, sonoros, transición), así como un modo para el ruido parásito de fondo, o el silencio. El comportamiento general de un codificador de voz depende de la robustez del modo de clasificación y de cuán bien funciona cada modo. La frecuencia promedio del codificador depende de las frecuencias de bits de los diferentes modos para sonidos sordos y sonoros, y otros segmentos de voz. Con vista a obtener la calidad deseada a una baja frecuencia de bits, es necesario determinar correctamente el modo de voz bajo condiciones variables.

Típicamente, los segmentos de voz sonoros y sordos son captados a alta frecuencia de bits y el ruido parásito de fondo y los segmentos de silencio son representados con los modos que trabajan a una frecuencia significativamente más baja. Los codificadores multi-modo de frecuencia variable requieren una clasificación correcta de voz para captar y codificar con precisión un por ciento alto de segmentos de voz usando un número mínimo de bits por segmento. La clasificación de voz más precisa produce una frecuencia promedio de codificación de bits más baja y una calidad superior de voz decodificada. Previamente, las técnicas de clasificación de voz consideraban una cantidad mínima de parámetros sólo para segmentos de voz aislados, produciendo clasificaciones de modos de voz escasas e inexactas. De ahí que, existe una necesidad de un clasificador de voz de alto rendimiento para clasificar correctamente modos numerosos de voz bajo condiciones ambientales variables con el fin de posibilitar el máximo rendimiento de las técnicas multi-modo de codificación de frecuencias variables de bits.

Sumario

Las realizaciones que se presentan están dirigidas a una técnica clasificación robusta de voz que evalúe numerosos parámetros característicos de voz para clasificar varios modos de voz con un alto grado de precisión bajo una variedad de circunstancias. Por consiguiente, por una parte se muestra un método de clasificación de voz como el que se describe en la realización 1.

Por otra parte, se muestra un clasificador de voz como el que se describe en la realización 7.

Breve descripción de los dibujos

Las características, objetos y ventajas de la presente invención serán más obvias a partir de la descripción detallada que se describe más abajo al tomarlas en conjunto con los dibujos en los cuales los caracteres, como referencia, se identifican de forma correspondiente en su totalidad y en el cual:

La Fig. 1 es un diagrama de bloques de un canal de comunicación limitado en cada extremo por codificadores de voz;

La Fig. 2 es un diagrama de bloque de un clasificador robusto de voz que puede ser usado por los codificadores ilustrados en la Fig. 1;

La Fig. 3 es un diagrama de fabricación que ilustra los pasos de clasificación de voz de un clasificador robusto de voz;

Las Figs. 4A, 4B y 4C son diagramas de estado usados por las realizaciones presentadas para la clasificación de voz;

Las Figs. 5A, 5B y 5C son tablas de decisiones usadas por las realizaciones presentadas para la clasificación de voz; y

La Fig. 6 es un gráfico a modo de ejemplo de una de las realizaciones de una señal de voz con parámetro de clasificación, y valores de modos de voz.

Descripción detallada de las realizaciones de preferencia

Las realizaciones mostradas proporcionan un método y un aparato para mejorar la clasificación de voz en aplicaciones de codificadores de voz. Los parámetros de clasificación noveles son analizados para producir más clasificaciones de voz con mayor precisión que las disponibles previamente. Se usa un proceso novel de decisiones para clasificar la voz segmento a segmento. Los parámetros derivados del discurso de entrada original, la información SNR, voz de salida con el ruido parásito amortiguado, la información de actividad vocal, el análisis del Coeficiente de Predicción Lineal (LPC), y los estimados de tono de lazo abierto son utilizados por un novel procesador de decisiones basadas en el estado para clasificar con precisión varios modos de voz. Cada segmento de voz se clasifica mediante el análisis de segmentos pasados y futuros, así como el segmento corriente. Los modos de voz que pueden ser clasificados por las realizaciones que se muestran, incluyen voz transitoria, transiciones al habla activa y al final de las palabras, sonidos sonoros, sordos y silencios.

Las realizaciones presentadas muestran una técnica de clasificación de voz para una variedad de modos de voz en medios con niveles variables de ruido parásito ambiental. Los modos de voz pueden ser identificados de forma confiable y exacta para codificar de la manera más eficiente.

En la Fig. 1 un primer codificador (10) recibe las muestras digitalizadas de voz s_(n) y codifica las muestras s_(n) para la transmisión en un medio de transmisión (12), o canal de comunicación (12), a un primer decodificador (14). El decodificador (14) decodifica las muestras de voz codificadas y sintetiza la señal de voz de salida sSYNTH_(n). Para transmitir en dirección opuesta, un segundo codificador (16) codifica las muestras digitalizadas de voz s_(n), las cuales son transmitidas en un canal de comunicación (18). Un segundo decodificador (20) recibe y decodifica las muestras codificadas de voz, generando una señal sintetizada de voz de salida sSYNTH (n).

Las muestras de voz, s_(n), representan las señales de voz que han sido digitalizadas y cuantificadas según alguno de los diversos métodos conocidos en la técnica que incluyen, por ejemplo, la modulación de códigos de pulso (MPC), "companded P-_law," or "Alaw". Como se conoce en la técnica, las muestras de voz, s_(n), se organizan en segmentos de datos en los cuales cada segmente incluye un número predeterminado de muestras digitalizadas de voz s_(n). En una realización presentada a modo de ejemplo, se utiliza una frecuencia de muestra de 8 kHz, conteniendo 160 muestras, cada segmento de 20 ms. En las realizaciones descritas más adelante, la frecuencia de transmisión de datos puede variarse de segmento a segmento desde 8 kbps (a frecuencia total), hasta 4 kbps (a mitad de la frecuencia), hasta 2 kbps (hasta un cuarto de la frecuencia), hasta 1 kbps (a un octavo de la frecuencia). Alternativamente, otras frecuencias de datos pueden ser usadas. Según se utilizan en el presente documento, los términos "frecuencia total" o "alta frecuencia" o "baja frecuencia"generalmente se refieren a las frecuencias de datos inferiores o iguales a 4 kbps. Variar la frecuencia de transmisión de datos es beneficioso porque las frecuencias de datos bajas pueden ser empleadas de forma selectiva para segmentos que contengan relativamente menos información de voz. Como se sobreentiende por los expertos en la técnica, otras frecuencias de muestras, tamaños de segmentos y frecuencias de transmisión de datos pueden ser utilizadas.

El primer codificador (10) y el segundo descodificador (20) contienen en conjunto un primer codificador de voz, o un codec de voz. De igual forma, el segundo codificador (16) y el primer decodificador (14) en conjunto contienen un segundo codificador de voz. Se sobreentiende para los expertos en la técnica que los codificadores de voz pueden ser implementados con un procesador digital de señales (PDS), circuito integrado específico de aplicación (''ASICs, Application Specific Integrated Circuit), lógica de compuerta discreta, firmware, o cualquier otro módulo de software programable convencional y un microprocesador. El módulo de software podría localizarse en la memoria RAM, en una memoria flash, en registros o en cualquier otra forma de medios de almacenamiento escribibles conocidos en la técnica. Alternativamente, cualquier procesador convencional, controlador o máquina de estado podría ser sustituido por el microprocesador. Los ASICs diseñados específicamente para la codificación de voz se describen en las Patente de E.U. Nos. 5 727 123 y 5 784 532 transferidos al cesionario de la presente invención e incorporados totalmente al presente documento para referencia.

La Fig. 2, ilustra una realización a modo de ejemplo, de un clasificador robusto de voz. En una realización, el aparato de clasificación de voz de la Fig. 2 puede colocarse en los codificadores (10 y 16) de la Fig. 1. En otra realización, el clasificador robusto de voz puede estar solo, proporcionando modos de salida de clasificación de voz a dispositivos tales como los codificadores (10, 16) de la Fig. 1.

En la Fig. 2, la voz entrante es enviada a un supresor de ruido parásito (202). La voz entrante es generada típicamente por conversión de la señal de voz de analógica a digital. El supresor de ruido parásito (202) filtra los componentes del ruido parásito de la señal de voz entrante produciendo una señal de voz de salida con el ruido parásito suprimido, y la información de SNR para voz de salida corriente. La información de SNR y la señal de voz de salida son entregadas al clasificador de voz (210). La señal de salida de voz del supresor de ruido parásito (202) es también entregada a un detector de actividad vocal (204), al analizador PLC (206), y al estimador de tono de lazo abierto (208). La información de SNR es usada por el clasificador vocal (210) para establecer umbrales de periodicidad y para distinguir entre voz nítida y con ruidos parásitos. Nos referiremos al parámetro SNR de ahora en lo adelante como curr_ns_snr. Nos referiremos a la señal de voz de salida como t_in. Si, en una realización, el supresor de ruido parásito (202) no está presente o está apagado, el parámetro SNR curr_ns_snr debe ser pre-establecido al valor por defecto.

El detector de actividad vocal (204) extrae la información de actividad vocal para voz corriente y se la envía al clasificador vocal (210). La información de actividad vocal de salida indica si voz corriente está activa o inactiva. En una realización presentada a modo de ejemplo, la información de actividad vocal de salida puede ser valorada de múltiples formas. Nos referiremos al parámetro de información de actividad vocal de ahora en lo adelante como vad.

El analizador CPL (206) extrae los coeficientes de reflexión CPL para voz corriente de salida y los envía al clasificador vocal (210). El analizador CPL (206) también puede extraer otros parámetros tales como los coeficientes CPL. Nos referiremos al parámetro de coeficiente de reflexión CPL de ahora en lo adelante como refl.

El estimador de tono de lazo abierto (208) extrae un valor de Función de Coeficiente de Auto-correlación Normalizado (NACF), y valores de tono sostenidos de NACF (around pitch values), y los envía a un clasificador vocal (210). Nos referiremos al parámetro de valores de tono sostenidos NACF de ahora en lo adelante como nacf_at_pitch. Una señal de voz más periódica produce un valor superior de nacf_at_pitch. Un valor más elevado de nacf_at_pitch tiene más probabilidades de ser asociado con el tipo de discurso de salida de voz estacionaria. El clasificador vocal (210) mantiene un conjunto de valores de nacf_at_pitch. El nacf_at_pitch es calculado en base a un sub-segmento. En una realización ofrecida a modo de ejemplo, se evaluan dos estimados de tono de lazo abierto para cada segmento del discurso de salida mediante la evaluación de dos sub-segmentos por segmento. El conjunto de nacf_at_pitch es calculado a partir del estimado del tono de lazo abierto para cada sub-segmento. En la realización ofrecida como ejemplo, un conjunto de 5 dimensiones de valores nacf_at_pitch (por ejemplo: nacf_at_pitch_ [5]) contiene valores por cada dos y la mitad de un segmento de voz de salida. El conjunto nacf_at_pitch es actualizado por cada segmento de voz saliente. El uso novedoso de un conjunto para el parámetro nacf_at_pitch proporciona al clasificador vocal (210) la habilidad de usar información de señales presentes, pasadas y futuras para hacer decisiones de modo de voz más exactas y
robustas.

Además de la información proporcionada al clasificador vocal (210) proveniente de los componentes externos, el clasificador vocal (210) genera internamente parámetros noveles adicionales a partir de la voz de salida para usarlo en el proceso decisiones del modo de voz.

En una realización, el clasificador vocal (210) genera internamente un parámetro de frecuencia de cruce zero/nulo (zero crossing), al cual nos referiremos de ahora en lo adelante como zcf. El parámetro zcr de voz de salida corriente está definido como el número de cambios de signos en la señal de voz por segmentos de voz. En la voz sonora, el valor zcr es bajo, mientras que la voz sorda (del ruido parásito) tiene un valor zcr alto porque la señal es muy irregular. El parámetro zcr es usado por el clasificador de voz (210) para clasificar la voz sonora y sorda.

En una realización, el clasificador de voz (210) genera internamente un parámetro de energía de segmento corriente, de ahora en lo adelante denominado como E.E., que puede ser usado por el clasificador vocal (210) para identificar la voz transitoria mediante la comparación de la energía en el segmento corriente con la energía en los segmentos pasados y futuros. El parámetro vEprev es la energía del segmento previo derivado de E.

En una realización, el clasificador vocal (210) genera internamente un parámetro de energía de segmento anticipado, denominado de ahora en lo adelante Enext. Enext puede contener valores de energía de una porción del segmento corriente y una porción del segmento siguiente de voz de salida. En una realización, Enext representa la energía en la segunda mitad del segmento corriente y la energía en la primera mitad del segmento siguiente de voz de salida. Enext es usado por el clasificador de voz (210) para identificar la voz transitoria. Al final del discurso, la energía de los siguientes segmentos disminuye drásticamente comparado con la energía del segmento corriente. El clasificador de voz (210) puede comparar la energía del segmento corriente y la energía del siguiente segmento para identificar el fin del discurso y para identificar el comienzo de las condiciones de voz, o hasta los modos transitorios de alta y modos transitorios de baja.

En una realización, el clasificador vocal (210) genera internamente un parámetro de relación de banda de energía definido como registro log2_(EL/EH), en el cual EL es la energía del segmento corriente de la banda baja desde 0 hasta 2 kHz, y EH es el segmento corriente de la banda alta.

En una realización, el clasificador de voz (210) genera internamente un parámetro de energía sonora promedio de tres segmentos, de ahora en lo adelante denominado vEav. En otras realizaciones, vEav puede prorratearse por encima de un número de segmentos diferentes de tres. Si el modo de voz corriente es activo y sonoro, vEav calcula el promedio dinámico de la energía en los últimos tres segmentos de voz de salida. El prorrateo de la energía en los últimos tres segmentos de voz de salida proporciona al clasificador de voz (210) más tablas de salida para clasificar el final de la voz sonora o del modo transitorio de baja, ya que la energía del segmento corriente, E, descenderá drásticamente en comparación con la energía de voz promedio, vEav, Cuando el discurso se ha detenido. vEav es actualizado solamente si el segmento corriente es sonorizado, o restablecido al valor fijo para los sonidos sordos o voz inactiva. En una realización, el valor de restablecimiento fijo es de _01.

En una realización, el clasificador vocal (210) genera internamente un parámetro de energía sonora promedio de tres segmentos, de ahora en lo adelante denominada como vEprev. En otras realizaciones, vEprev puede ser prorrateada por encima de un número de segmentos diferentes de tres. vEprev es usado por el clasificador vocal (210) para identificar la voz de transición. Al principio del discurso, la energía del segmento corriente se eleva drásticamente comparada con la energía promedio de los tres primeros segmentos sonoros. El clasificador de voz (210) puede comparar la energía del segmento corriente y los tres segmentos previos para identificar el comienzo de las condiciones del discurso, o los modos transitorios altos y modos de voz. De igual forma, al final del discurso sonoro, la energía del segmento corriente desciende drásticamente. De esta forma, vEprev puede también ser usado para clasificar la transición al final del discurso.

En una realización, el clasificador vocal (210) genera internamente una energía del segmento corriente hacia el parámetro de relación de energía sonora promedio de los tres segmentos previos, definidos como 10*log10_(E/_vEprev). En otras realizaciones, vEprev puede ser prorrateada por encima de un número de segmentos diferentes de tres. La energía corriente hacia el parámetro de relación de energía sonora promedio de los tres segmentos previos se denomina de ahora en lo adelante como vER. vER es usado por el clasificador vocal (210) para clasificar el comienzo del discurso sonoro y el final del discurso sonoro, o el modo transitorio alto y el modo transitorio bajo, ya que vER es grande cuando el discurso ha comenzado otra vez y pequeño al final del discurso sonoro. El parámetro vER puede ser usado en conjunto con el parámetro vEprev en la clasificación del discurso transitorio.

En una realización, el clasificador vocal (210) genera internamente una energía del segmento corriente hacia el parámetro de energía sonora promedio de tres segmentos, definida como MIN_(20,10*log10_(E/_vEav). La energía del segmento corriente hacia la energía sonora promedio de tres segmentos es denominada de ahora en lo adelante vER2. vER2 es usada por el clasificador vocal (210) para clasificar los modos de voz transitorios al final del discurso sonoro.

En una realización, el clasificador de voz (210) genera internamente un valor máximo del parámetro indicador de energía sub-segmento. El clasificador de voz (210) divide equitativamente el segmento corriente del discurso de salida en sub-segmentos, y calcula la Raiz Cuadrada del Promedio de los Cuadrados (RMS) del valor de la energía de cada sub-segmento. En una realización, el segmento corriente se divide en 10 sub-segmentos. El parámetro indicador de la energía máxima del sub-segmento es el indicador del sub-segmento que tiene la RMS del valor de la energía más grande en el segmento corriente o en la segunda mitad del segmento corriente.

El parámetro indicador de energía máxima del sub-segmento serádenominado, de ahora en lo adelante, as
maxsfe_idx. La división del segmento corriente en sub-segmentos proporciona al clasificador vocal (210) información sobre las localizaciones de los picos de energía, incluyendo la localización de los picos de energía más grandes dentro de un segmento. Se alcanza más resolución dividiendo un segmento en más sub-segmentos. Maxsfe-idx es usado en conjunto con otros parámetros por el clasificador vocal (210) para clasificar los modos de voz transitoria, ya que las energías de los modos de voz sonoros o el silencio son generalmente estables, mientras que la energía alcanza el pico o disminuye en un modo de voz transitoria.

El clasificador de voz (210) usa parámetros noveles de entrada directamente de los componentes de codificación, y los parámetros noveles generados internamente, hacia modos de clasificación de voz más precisos y robustos que los que eran posibles previamente. El clasificador de voz (210) aplica un proceso de toma de decisiones a los parámetros de entrada directa y generados internamente para producir resultados de clasificación del discurso mejorados. El proceso de decisiones está descrito en detalles más adelante con referencias a las Figs. 4A-4C Y 5A-5C.

En una realización, los modos de voz suministrados por el clasificador de voz (210) incluyen: modos transitorios, transitorios altos, transitorios bajos, sonoros, sordos y de silencio. El modo transitorio es un discurso sonoro pero menos periódico, codificado óptimamente con un CELP de frecuencia total. El modo transitorio de baja es un discurso sonoro de baja energía comúnmente al final de una palabra, óptimamente codificado con un CELP de media frecuencia. El modo sonoro es un discurso altamente sonoro y periódico, que contiene principalmente vocales. El discurso de modo sonoro puede ser codificado a alta frecuencia, mediana frecuencia, un cuarto de frecuencia o un octavo de frecuencia. La frecuencia de datos para codificar el discurso del modo sonoro se selecciona para cumplir con los requisitos de la Frecuencia Media de Datos (ADR). El modo sordo, consta fundamentalmente de consonantes, está óptimamente codificado con una Predicción Lineal Excitada de Ruido parásito (PLER). El modo de silencio es voz inactiva, óptimamente codificada con un CELP de un octavo de frecuencia.

Un experto en la técnica entendería que los parámetros y modos de voz no están limitados a los parámetros y modos de voz de las realizaciones mostradas. Se pueden emplear parámetros y modos de voz adicionales sin desviarse de la esfera de acción/intención de las realizaciones mostradas.

La Fig. 3 es un diagrama de fabricación que ilustra una realización de los pasos de clasificación de voz de una técnica de clasificación de voz robusta.

\newpage

En el paso 300, los parámetros de clasificación de entrada obtenidos de los componentes externos son procesados por cada fragmento del discurso de salida con supresión de ruidos parásitos. En una realización, los parámetros de clasificación obtenidos de los componentes externos son procesados por cada fragmento de ruidos parásitos suprimidos de la voz de salida. En una realización, los parámetros de clasificación obtenidos de los componentes externos constan de curr__ns__snr y de t-- t__in de entrada obtenido de un componente supresor de ruidos parásitos, los parámetros de nacf__at__pitch obtenidos de un componente estimador de tono de lazo abierto, vad se obtiene de un componente detector de actividad vocal, y refl se obtiene de un componente de análisis de CPL. El diagrama de fabricación procede hasta el paso 302.

En el paso 302, los parámetros adicionales generados internamente son calculados a partir de los parámetros de clasificación obtenidos de los componentes externos. En una realización ejemplar, zcr, E, Enext, ver, vEav, VEprev, vER, vER2 y maxsfe__IDX son calculados a partir de t__in. Cuando los parámetros generados han sido calculados para cada segmento de voz de salida, el diagrama de fabricación procede hasta el paso 304.

En el paso 304, los umbrales de NACF son determinados, y se selecciona un analizador de parámetros de acuerdo con el medio de la señal de voz. En una realización de ejemplo, el umbral de NACF es determinado por la comparación de la información del parámetro de entrada de curr__ns__snr en el paso 300 hasta el valor del umbral de SNR. La información de curr__ns__snr, derivada del supresor de ruidos parásitos, proporciona un novel control de adaptación de un umbral de decisión de periodicidad. De esta manera, se aplican diferentes umbrales de periodicidad para las señales de voz con diferentes niveles de componentes de ruidos parásitos. Una decisión de clasificación de voz más precisa se produce cuando el nacf más adecuado, o el umbral de la periodicidad para el nivel de ruido parásito de la señal de voz son seleccionados para cada segmento del discurso de salida. La determinación del umbral de periodicidad más adecuado para una señal de voz permite la selección del mejor analizador de parámetros para la señal de voz.

Las señales de voz nítidas y con ruidos parásitos difieren inherentemente en periodicidad. Cuando el ruido parásito está presente, la corrupción del discurso está presente. Cuando la corrupción del discurso está presente, la medida de la periodicidad, o nacf, es más baja que la de voz nítida. De ahí que el umbral de nacf sea inferior para compensar el medio de señales ruidosas o es elevado para un medio de señales nítidas. La técnica novel de clasificación de voz de las realizaciones mostradas no se adecua a los umbrales de periodicidad de todos los medios, produciendo una decisión de modo robusta y más precisa a pesar de los niveles de ruidos parásitos.

En una realización ejemplar, si el valor de curr__ns__snr es mayor que o igual al umbral de SNR de db 25, se aplican los umbrales nacf para voz nítida. Los umbrales nacf de ejemplo de habla nítida son definidos por la siguiente tabla:

\vskip1.000000\baselineskip

TABLA 2

En la realización de ejemplo, si el valor de curr__ns__snr es menor que el umbral de SNR de db 25, se aplican los umbrales de nacf para voz ruidosa. Los umbrales de ejemplo nacf para voz ruidosa se definen por la siguiente tabla:

(Sonoro) Voiced VOICEDTH ._75

(De transición - Sonoros bajos) Transitional LOWVOICEDTH ._5

(Sordos) Unvoiced UNVOICEDTH ._35

\vskip1.000000\baselineskip

La voz con ruidos parásitos es semejante al habla nítida con ruido añadido. Con el control del umbral de periodicidad de adaptación, la técnica de clasificación vocal robusta tiene más probabilidades de producir decisiones de clasificación idénticas para voz nítida y la ruidosa que las que existían anteriormente. Cuando los umbrales de nacf han sido establecidos para cada segmento, el diagrama de fabricación procede al paso 306.

En el paso 306, los parámetros obtenidos a partir de los componentes externos y los parámetros generados internamente son analizados para producir una clasificación del modo de voz. Se aplica a los parámetros una máquina de estado o cualquier otro método de análisis seleccionado según el medio circundante de la señal. En una realización ofrecida a modo de ejemplo, los parámetros originados a partir de los componentes externos y los parámetros generados internamente son aplicados al proceso de decisiones del modo basado en el estado descrito en detalle con referencia a las Figs. 4A - 4C y 5A - 5C. El proceso de decisiones produce una clasificación del modo de voz. En una realización ofrecida como ejemplo, se produce una clasificación del modo de voz de: Transitoria, Transitoria Alta, Transitoria Baja, Sonora, Sorda o Silencio. Cuando se ha producido una decisión sobre el modo de voz, el diagrama de fabricación procede al paso 308.

En el paso 308, las variables de estado y varios parámetros son actualizados para incluir el segmento corriente. En una realización presentada como ejemplo, se actualizan vEav, vEprev, y el estado sonoro del segmento corriente. La energía E del segmento corriente, nacf__at__pitch, y el modo de voz del segmento corriente son actualizados para clasificar el próximo segmento.

Los pasos 300 - 308, se repiten para cada segmento de voz.

Las Figs 4A - 4C ilustran las realizaciones del proceso de toma de decisiones de los modos de una realización presentada como ejemplo de una técnica robusta de clasificación de voz. El proceso de toma de decisiones selecciona una máquina de estado para la clasificación de voz basada en la periodicidad del segmento de voz. Para cada segmento de voz, se selecciona la máquina de estado más compatible con la periodicidad, el componente del ruido, o el segmento de voz para el proceso de decisiones mediante la comparación de la medida de periodicidad del segmento de voz, por ejemplo, el valor nacf__at__pitch con los umbrales de NACF establecidos en el paso 304 de la Fig. 3. El nivel de periodicidad del segmento de voz limita y controla las transiciones de estado del proceso de decisiones, produciendo una clasificación más robusta.

La Fig. 4A ilustra una realización de una máquina de estado seleccionada en la realización ofrecida como ejemplo, siendo vad 1 (existe habla activa) y el tercio del valor de nacf__at__pitch (por ejemplo, nacf__at__pitch__ [2], tiene un indicador de cero) es muy alto, o mayor que VOICEDTH (SONORO). VOICEDTH es definido en el paso 304 de la Fig. 3. La Fig. 5A ilustra los parámetros evaluados por cada estado.

El estado inicial es el silencio. El segmento corriente siempre será clasificado como Silencio, sin tener en cuenta el estado previo, si vad=0 (por ejemplo, no existe actividad sonora).

Cuando el estado previo es el silencio, el segmento corriente puede clasificarse ya sea como Sordo o Transitorio de Alta. El segmento corriente se clasifica como Sordo si nacf__at__pitch__[3] es muy bajo, zcr is alto, bER es bajo y vER es muy bajo, o si la combinación de las tres condiciones se cumplen. De lo contrario se clasifica por defecto como Transitorio de Alta.

Cuando el estado previo es Sordo, el segmento corriente puede clasificarse como Sordo o Transitorio de Alta. El segmento corriente permanece clasificado como Sordo si nacf es muy bajo, nacf__at__pitch__[3] es muy bajo, nacf__at__pitch__[4] es muy bajo, zcr es alto, bER es bajo, vER es muy bajo y E es inferior a vEprev, o si se cumple una combinación de estas condiciones. De lo contrario se clasifica por defecto como Transitorio de Alta.

Cuando el estado previo es Sordo, el segmento corriente puede clasificarse como Sordo, Transitorio, Transitorio de Baja, o Sonoro. El segmento corriente se clasifica como Sordo si vER es muy bajo y E es menor que vEprev. El segmento corriente se clasifica como Transitorio si nacf__at__pitch__[1] y nacf__at__pitch__[3] son bajos, yn nacf__at__pitch__[3] tiene un valor moderado. De lo contrario, se clasifica por defecto como Sordo.

Cuando el estado previo es Transitorio o Transitorio de Alta, el segmento corriente puede clasificarse como Sordo, Transitorio, Transitorio de Baja o Sonoro. El segmento corriente se clasifica como Sordo si vER es muy bajo y E es menor que vEprev. El segmento corriente se clasifica como Transitorio si nacf__at__pitch__[1] es bajo, nacf__at__pitch__[3] tiene un valor moderado, nacf__at__pitch__[4] es bajo, y el estado previo no es Transitorio, o si se cumple una combinación de estas condiciones. El segmento corriente se clasifica como Transitorio Bajo si nacf__at__pitch__[3] tiene un valor moderado y E es menor que __05 veces vEav. De lo contrario, se clasifica por defecto como Sordo.

Cuando el segmento previo es Transitorio de Baja, el segmento corriente puede clasificarse como Sordo, Transitorio o Umbral para el Tipo de Umbral Llamado Valor del Umbral (Threshold for Type Threshold Name Threshold Value).

\vskip1.000000\baselineskip

(Sonoro) Voiced VOICEDTH ._65

(De transición - SONORO BAJO) Transitional LOWVOICEDTH ._5

(Sordo) Unvoiced UNVOICEDTH ._35

\vskip1.000000\baselineskip

La Fig. 4B ilustra una realización de una máquina de estado seleccionada en la realización mostrada como ejemplo en la que vad es 1 (existe habla activa) y el tercio del valor de nacf__at__pitch es muy bajo o menor que UNVOICEDTH. UNVOICEDTH se define en el paso 304 de la Fig. 3. La Fig. 5B ilustra los parámetros evaluados por cada estado.

El estado inicial es el silencio. El segmento corriente siempre se clasificará como Silencio, sin considerar el estado previo, si vad=0 (por ejemplo: no existe actividad vocal).

Cuando el estado previo es el silencio, el segmento corriente puede clasificarse ya sea como Sordo o Transitorio de Alta. El segmento corriente se clasifica como Transitorio de Alta si nacf__at__pitch_[2-4] muestra una tendencia creciente, nacf__ at__ pitch_[3-4] tiene un valor moderado, bER es alto, y vER tiene un valor moderado o si se cumple una combinación de estas condiciones. De lo contrario se clasifica por defecto como Sordo.

Cuando el estado previo es Sordo, el segmento corriente puede clasificarse como Sordo, Transitorio de Alta. El segmento corriente se clasifica como Transitorio de Alta si nacf__ at__ pitch_[2-4] muestra una tendencia creciente, nacf__ at__ pitch_[3-4] tiene un valor de moderado a alto, zcr es muy bajo o moderado, vER no es bajo, bER es alto, refl es bajo, nacf tiene un valor moderado y E es mayor que vEprev, o si cumple una combinación de estas condiciones. Las combinaciones y los umbrales de estas condiciones pueden variar en dependencia del nivel de ruido parásito del segmento de voz según se refleja en el parámetro curr__ns__ snr. De lo contrario, se clasifica por defecto como Sordo.

Cuando el estado previo es Sordo, Transitorio de Alta, o Transitorio, el segmento corriente puede clasificarse como Sordo, Transitorio, o Transitorio de Baja. El segmento corriente se clasifica como Sordo si bER es menor que o igual a cero, vER es muy bajo, bER es mayor que cero y E es menor que vEprev, o si se cumple una combinación de estas condiciones. El segmento corriente se clasifica como Transitorio si bER es menor que o igual a cero, o si una cierta combinación de estas condiciones se cumple. Las combinaciones y los umbrales para estas condiciones pueden variar en dependencia del nivel de ruido del segmento de voz según se refleja en el parámetro curr__ns__ snr. El segmento corriente se clasifica como Transitorio de Baja si, bER es mayor que cero, nacf__ at__ pitch_[3] es moderado, E es menor que vEprev, zcr no es alto, y vER2 es menor que menos quince.

Cuando el segmento previo es Transitorio de Baja, el segmento corriente puede clasificarse como Sordo, Transitorio, o Transitorio de Baja. El segmento corriente se clasificará como Transitorio si nacf__ at__ pitch_[2-4] muestra una tendencia ascendente, nacf_at__ pitch_[3-4] son moderadamente altos, vER no es bajo, y E es mayor que dos veces vEprev, o si una combinación de estas condiciones se cumple. El segmento corriente se clasificará como Transitorio de Baja si vER no es bajo y zcr es bajo. De lo contrario, la clasificación actual por defecto será de Sordo.

La Fig. 4C ilustra una realización de una máquina de estado seleccionada en la realización mostrada como ejemplo cuando vad es 1 (existe habla activa) y el tercio del valor de nacf__ at__ pitch (i.e. nacf__ at__ pitch_[3]) es moderado, por ejemplo, mayor que UNVOICEDTH (SORDO) y menor que VOICEDTH (SONORO). UNVOICEDTH (SORDO) y VOICEDTH (SONORO) son definidos en el paso 304 de la Fig. 3. La Fig. 5C ilustra los parámetros evaluados por cada estado.

El estado inicial es el silencio. El segmento corriente siempre se clasificará como Silencio, sin considerar el estado previo, si vad=0 (por ejemplo no existe actividad vocal).

Cuando el estado previo es el silencio, el segmento corriente puede clasificarse ya sea como Sordo o como Transitorio de Alta. El segmento corriente se clasifica como Transitorio de Alta, si nacf__ at__ pitch_[2-4] muestra una tendencia ascendente, nacf__ at__ pitch_[3-4] son de moderados a altos, zcr no es alto, bER es alto, vER tiene un valor moderado, zcr es muy bajo y E es mayor que dos veces vEprev, o si se cumple cierta combinación de estas condiciones. De lo contrario se clasifica por defecto como Sordo.

Cuando el estado previo es Sordo, el segmento corriente puede clasificarse como Sordo o Transitorio de Alta. El segmento corriente se clasifica como Transitorio de Alta si nacf__ at__ pitch_[2-4] muestra una tendencia creciente, nacf__ at__ pitch_[3-4] tiene un valor de moderado a alto, zcr no es alto, vER no es bajo, bER es alto, refl es bajo y E es mayor que vEprev, zcr es muy bajo, nacf no es bajo, maxsfe__ idx indica hacia el último segmento y E es dos veces mayor que vEprev, o si cumple una combinación de estas condiciones. Las combinaciones y los umbrales para estas condiciones pueden varias en dependencia del nivel de ruido del segmento de voz según se refleja en el parámetro curr__ns__ snr. De lo contrario, se clasifica por defecto como Sordo.

Cuando el estado previo es Sonoro, Transitorio de Alta o Transitorio, el segmento corriente se puede clasificar como Sordo, Sonoro, Transitorio o Transitorio de Baja. El segmento corriente se clasifica como Sordo si bER es menor que o igual a cero, vER es muy bajo, Enext es menor que E, nacf__ at__ pitch_[3-4] son muy bajos, bER es mayor que cero y E es menor que vEprev, o si se cumple una cierta combinación de estas condiciones. El segmento corriente se clasifica como Transitorio si bER es mayor que cero, nacf__ at__ pitch_[2-4] muestra una tendencia creciente, zcr no es alto, vER no es bajo, refl es bajo, nacf__ at__ pitch_[3] y nacf no son bajos, o si existe una combinación de estas condiciones.

Las combinaciones y umbrales para estas condiciones pueden varias en dependencia del nivel de ruido del segmento de voz según se refleja en el parámetro curr__ns__ snr. El segmento corriente se clasifica como Transitorio de Baja si bER es mayor que cero, nacf__ at__ pitch_[3] no es alto, E es menor que vEprev, zcr no es alto, vER es menor que menos quince y vER2 es menor que menos quince, o si cumple una combinación de estas condiciones. El segmento corriente se clasifica como Sordo si nacf__ at__ pitch_[2] es mayor que LOWVOICEDTH (SONORO BAJO), bER es mayor que o igual a cero y vER no es bajo o si se cumple una combinación de estas condiciones.

Cuando el segmento previo es Transitorio de Baja, el segmento corriente puede clasificarse como Sordo, Transitorio o Transitorio de Baja. El segmento corriente se clasificará como Transitorio si bER es mayor que cero, nacf__ at__ pitch_[2-4] muestra un tendencia creciente, nacf__ at__ pitch_[3-4] son moderadamente altos, vER no es bajo y E es mayor que dos veces vEprev, o si cumple una cierta combinación de estas condiciones. El segmento corriente se clasificará como Transitorio de Baja si vER no es bajo y zcr es bajo. De lo contrario, la clasificación corriente se hará por defecto como Sordo.

La Fig. 5A - 5C son realizaciones de tables de decisiones usadas por las realizaciones presentadas para la clasificación de voz.

La Fig. 5A, según una de las realizaciones, ilustra los parámetros evaluados por cada estado, y las transiciones de estado cuando un tercio del valor de nacf__ at__ pitch (por ejemplo, nacf__ at__ pitch_[2]) es muy bajo, o mayor que VOICEDTH (SONORO). La tabla de decisiones ilustrada en la Fig. 5A, es usada por la máquina de estado descrita en la Fig. 4A. La clasificación del modo de voz del segmento de voz previo se muestra en la columna superior izquierda. Cuando los parámetros son valorados según se muestra en la hilera asociados con cada modo previo, las transiciones de la clasificación de los modos de voz hacia el modo corriente son identificadas en la hilera superior de la columna asociada.

La Fig. 5B ilustra, según una realización, los parámetros evaluados por cada estado, y las transiciones de estado cuando el tercio del valor (por ejemplo, nacf__ at__ pitch_[2]) es muy bajo, o menor que UNVOICEDTH (SORDO). La tabla de decisiones ilustrada en la Fig. 5B es usada por la máquina de estado descrita en la Fig. 4B. La clasificación del modo de voz del segmento previo de voz se muestra en la columna superior izquierda. Cuando los parámetros son valorados como se muestra en la hilera asociada con cada modo previo, las transiciones de clasificación del modo de voz hacia el modo corriente son identificadas en la hilera superior de la columna asociada.

La Fig. 5C ilustra, según una realización, los parámetros evaluados por cada estado, y las transiciones de estado cuando un tercio del valor de nacf__ at__ pitch (i.e. nacf__ at__ pitch_[3]) es moderado, por ejemplo, mayor que UNVOICEDTH (SORDO) pero menor que VOICEDTH (SONORO). La tabla de decisiones ilustrada en la Fig. 5C es usada por la máquina de estado descrita en la Fig. 4C. La clasificación del modo de voz del segmento de voz previo es mostrada en la hilera asociada con cada modo previo, las transiciones de clasificación del modo de voz hacia el modo corriente son identificadas en la hilera superior de la columna asociada.

La Fig. 6 es una gráfica de tiempo de una realización mostrada a modo de ejemplo de una señal de voz con los valores de los parámetros asociados y las clasificaciones de voz.

Se sobreentiende por los expertos en la técnica, que los clasificadores de voz pueden implementarse con un PDS (DSP), un "ASIC", un programa de lógica de compuerta discreta (discrete gate logic), un "firmware" o cualquier modulo de software programable convencional y un microprocesador. El modulo de software podría colocarse en la memoria RAM, la memoria flash, los registros o en cualquier otro forma en un medio de almacenamiento de información escribible conocido en la técnica. Alternativamente, cualquier procesador, controlador o máquina de estado convencional podría ser sustituido por el microprocesador.

La descripción previa de las realizaciones de preferencia está prevista para facilitar a cualquier persona experta en la técnica, llevar a cabo o usar la presente invención. Las diferentes modificaciones a las realizaciones mostradas en este documento serán comprensibles para los expertos en la técnica. De ahí que la presente invención no tiene como objetivo limitar a las realizaciones mostradas en el presente documento, sino que están de conformidad con el campo de aplicación más amplio definido por las reivindicaciones adjuntas.

Claims

1. Un método de clasificación de voz que:

genera una información de Relación Señal - Ruido, también denominada SNR, para una señal de voz;

genera parámetros de clasificación a partir de la señal de voz, que incluyen una Función de Coeficiente de Auto-Correlación Normalizada, también denominada FCAN;

compara la información del Coeficiente de Auto-correlación Normalizada, también denominado FCAN;

compara la información de SNR con un valor del umbral de SNR;

establece un umbral de FCAN en función de los resultados de la etapa de comparación y utiliza dicho umbral para seleccionar un analizador de parámetros;

y analiza los parámetros de clasificación en función del analizador seleccionado para producir una clasificación de modo de voz.

2. El método de la reivindicación 1, en el cual la señal de voz es una señal de voz en la que el ruido ha sido suprimido.

3. El método de la reivindicación 2, en el cual la información de SNR es para la señal de voz en la cual se ha suprimido el ruido.

4. El método de la reivindicación 1, en el cual los parámetros de clasificación constan de información de actividad de voz.

5. El método de la reivindicación 1, en el cual los parámetros de clasificación contienen Coeficientes de Reflexión de Predicción Lineal.

6. El método de la reivindicación 1, en el cual los parámetros de clasificación constan de una Función de Coeficiente de Auto-Correlación Normalizada a nivel de una información de tono.

7. Un clasificador de voz que consta de:

Medios para generar una Información de Relación Señal -Ruido, también denominada SNR, para una señal de voz; un generador para generar parámetros de clasificación para la señal de voz, que incluye una Función de Coeficiente de Auto-Correlación Normalizada, también denominada NACF; medios para comparar la información de SNR con el umbral de SNR; y generador de umbral de NACF para establecer un umbral de NACF según los resultados de la comparación y utilizar dicho umbral de NACF para seleccionar un analizador de parámetros, en el cual el analizador de parámetros seleccionado se adapta para analizar los parámetros de clasificación para producir una clasificación del modo de voz.

8. El clasificador de voz de la reivindicación 7, en el cual la señal de voz es una señal en la que el ruido ha sido suprimido.

9. El clasificador de voz de la reivindicación 7, en la cual el generador, para generar parámetros de clasificación, puede operarse para generar parámetros a partir de la Información de Relación Señal - Ruido.

10. El clasificador vocal según la reivindicación 7, en el cual el generador, para generar parámetros de clasificación, es operable para generar parámetros a partir de la información de actividad de voz.

11. El clasificador de voz según la reivindicación 7, en la cual el generador, para generar parámetros de clasificación, es operable para generar parámetros a partir de Coeficientes de Reflexión de Predicción Lineal.

12. El clasificador de voz según la reivindicación 7, en el cual el generador, para generar parámetros de clasificación, es operable para generar parámetros a partir de la información de NACF.

13. El clasificador de voz según la reivindicación 7, en el cual el generador, para generar parámetros de clasificación, es operable para generar parámetros a partir de información de

\hbox{NACF a nivel de información  de tono de
voz.}

14. El método de la reivindicación 6 o el clasificador de voz de la reivindicación 13, en la cual NACF a nivel de información de tono de voz es un conjunto de valores.

15. El método de la reivindicación 1 o del clasificador de voz de la reivindicación 7, en la cual los parámetros generados constan de un parámetro de tasa de cruce de cero ("zero rate").

16. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual los parámetros generados constan de un parámetro de energía de segmento corriente.

17. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual los parámetros generados constan de un parámetro de energía de segmento anticipado.

18. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual los parámetros generados comprenden un parámetro de frecuencia de energía de banda.

19. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual los parámetros generados comprenden un parámetro de energía de voz promedio de tres segmentos.

20. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual los parámetros generados constan de un parámetro de energía de voz promedio de los tres segmentos precedentes.

21. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual los parámetros generados constan de una energía de segmento corriente para el parámetro de energía sonora media de los tres segmentos precedentes

22. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual los parámetros generados constan de energía de segmento corriente para el parámetro de energía sonora media de los tres segmentos.

23. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual los parámetros generados constan de un valor máximo del parámetro indicador de energía del sub-segmento.

24. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual el análisis comprende la aplicación de parámetros a una máquina de estado.

25. El método o el clasificador de voz de la reivindicación 24, en el cual la máquina de estado consta de un estado para cada modo de clasificación de voz.

26. El método de la reivindicación 1 ó un clasificador de voz de la reivindicación 7, en el cual la clasificación de modo de voz consta de un modo Transitorio.

27. El método de la reivindicación 1 ó clasificador vocal de la reivindicación 7, en el cual la clasificación de modo de voz consta de un modo transitorio de Alta.

28. El método de la reivindicación 1 o del clasificador de voz de la reivindicación 7, en el cual la clasificación del modo de voz consta de un modo Transitorio de Baja

29. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual la clasificación del modo de voz consta de un modo Sonoro.

30. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual la clasificación del modo de voz consta de un modo Sordo.

31. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, en el cual la clasificación del modo de voz consta de un modo de Silencio.

32. El método de la reivindicación 1 ó del clasificador de voz de la reivindicación 7, que además incluye la actualización de al menos un parámetro.

33. El método o clasificador de voz de la reivindicación 32, en el cual el parámetro actualizado contiene un parámetro de tono de NACF.

34. El método o clasificador de voz de la reivindicación 32, en el cual el parámetro actualizado consta de un parámetro de energía Sonora media en los tres tramos.

35. El método o clasificador de voz de la reivindicación 32, en el cual el parámetro actualizado consta de un parámetro de energía de segmento anticipado.

36. El método o clasificador de voz de la reivindicación 32, en el cual el parámetro actualizado consta de un parámetro de energía sonora media en tres tramos.

37. El método o clasificador de voz de la reivindicación 32, en el cual el parámetro actualizado consta de un parámetro de detección de actividad sonora.