ES2254155T3

ES2254155T3 - Procedimiento y aparato para realizar el seguimiento de la fase de una señal casi periodica.

Info

Publication number: ES2254155T3
Application number: ES00912054T
Authority: ES
Inventors: Amitava Das
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-03-18
Filing date: 2000-02-29
Publication date: 2006-06-16
Anticipated expiration: 2020-02-29
Also published as: US6563873B1; WO2000057360A1; EP1078332B9; KR20010025045A; DE60028884D1; EP1078332A1; JP2002540516A; EP1078332B1; ATE315821T1; DE60028884T2

Abstract

Procedimiento para realizar el seguimiento de la fase de una señal que es periódica durante algunas tramas y no periódica durante otras tramas, que comprende las etapas siguientes: estimar la fase de la señal en las tramas durante las cuales la señal es periódica; supervisar el rendimiento de la fase estimada con una medida de rendimiento de bucle cerrado; medir la fase de la señal en las tramas durante las cuales la señal es periódica; proporcionar una fase de salida que es la fase estimada cuando el rendimiento de la fase estimada se encuentra por debajo de un nivel umbral predefinido; y proporcionar la fase de salida que es la fase medida cuando el rendimiento de la fase estimada se encuentra por encima del nivel umbral predefinido.

Description

Procedimiento y aparato para realizar el seguimiento de la fase de una señal casi periódica.

Antecedentes de la invención I. Campo de la invención

La presente invención se refiere en general al campo del procesamiento de voz y, más particularmente, a un procedimiento y un aparato para realizar el seguimiento de la fase de una señal casi periódica.

II. Antecedentes

La transmisión de voz mediante técnicas digitales ha experimentado una amplia difusión, particularmente, en las aplicaciones de radioteléfonos de larga distancia y digitales. Esto, a su vez, ha generado un interés por la determinación de la cantidad mínima de información que puede enviarse a través de un canal, mientras se mantiene la calidad percibida de la voz reconstruida. Si la transmisión de la voz se realiza mediante muestreo y digitalización simplemente, se necesita una velocidad de transmisión de datos del orden de sesenta y cuatro kilobits por segundo (kbit/s) para obtener la calidad de voz de un teléfono analógico convencional. No obstante, mediante la utilización del análisis de voz, seguida de una codificación, una transmisión y una resíntesis adecuada en el receptor, puede conseguirse una reducción significativa de la velocidad de transmisión de datos.

Los dispositivos que emplean técnicas para comprimir voz extrayendo parámetros que se refieren a un modelo de generación de voz humana se denominan codificadores de voz. Un codificador de voz divide la señal de voz de entrada en bloques de tiempo o tramas de análisis. Los codificadores de voz suelen comprender un codificador y un decodificador. El codificador analiza la trama de voz de entrada para extraer ciertos parámetros relevantes y, a continuación, cuantifica los parámetros para obtener una representación binaria (un conjunto de bits o un paquete de datos binarios). Los paquetes de datos se transmiten a través del canal de comunicación hasta un receptor y un decodificador. El decodificador procesa los paquetes de datos, los decuantifica para obtener los parámetros y resintetiza las tramas de voz mediante los parámetros decuantificados.

La función del codificador de voz consiste en comprimir la señal de voz digitalizada en una señal de baja velocidad binaria, eliminando todas las redundancias naturales inherentes al habla. La compresión digital se realiza representando la trama de voz de entrada con un conjunto de parámetros y empleando la cuantificación para representar los parámetros con un conjunto de bits. Si la trama de voz de entrada presenta un número de bits N_{i} y el paquete de datos obtenido por el codificador de voz presenta un número de bits N_{o}, el factor de compresión conseguido por el codificador de voz es C_{r} = N_{i}/N_{o}. El objetivo pretendido es mantener una alta calidad de la voz decodificada y alcanzar, al mismo tiempo, el factor de compresión deseado. El rendimiento de un codificador de voz depende de (1) qué grado de corrección alcanza el modelo de voz, o la combinación del procedimiento de análisis y síntesis descritos anteriormente y (2) qué grado de corrección alcanza el procedimiento de cuantificación de parámetros a la velocidad binaria pretendida de N_{o} bits por trama. El objetivo del modelo de voz es, pues, captar la esencia de la señal de voz, o la calidad de voz pretendida, con un pequeño conjunto de parámetros para cada trama.

Los codificadores de voz pueden implementarse como codificadores del dominio del tiempo, que tratan de captar la forma de onda de voz en el dominio del tiempo empleando un procesamiento de alta resolución temporal para codificar algunos pequeños segmentos de voz (habitualmente, subtramas de 5 milisegundos (ms)) cada vez. Para cada subtrama, se halla un representante de alta precisión de un espacio de libro de código, por medio de diversos algoritmos de búsqueda conocidos en la técnica. Como alternativa, los codificadores de voz pueden implementarse como codificadores del dominio de la frecuencia, que tratan de captar el espectro de voz a corto plazo de la trama de voz de entrada con un conjunto de parámetros (análisis), y que emplean un correspondiente procedimiento de síntesis para recrear la forma de onda de la voz a partir de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código, según técnicas de cuantificación conocidas descritas en el documento de A. Gersho y R.M. Gray Vector Quantization and Signal Compressión (1992).

Un codificador de voz del dominio del tiempo muy conocido es el codificador de predicción lineal con excitación por código (CELP) descrito en el documento de L.B. Rabiner y R.W. Schafer Digital Processing of Speech Signals, 396-453 (1978), que se incluye por completo en la presente memoria a título de referencia. En un codificador CELP, las correlaciones o redundancias a corto plazo de la señal de voz son eliminadas mediante un análisis de predicción lineal (LP) que halla los coeficientes de un filtro de formantes a corto plazo. Cuando se aplica el filtro de predicción a corto plazo a la trama de voz de entrada, se genera una señal de residuo LP, que se modeliza y cuantifica además con parámetros de filtro de predicción a largo plazo y un subsiguiente libro de código estocástico. Por lo tanto, la codificación CELP divide la tarea de codificar la forma de onda de voz en el dominio del tiempo en las tareas separadas de codificar los coeficientes de filtro LP a corto plazo y codificar el residuo LP. La codificación en el dominio del tiempo puede realizarse a una velocidad fija (es decir, utilizando el mismo número de bits, N_{0,} para cada trama) o a una velocidad variable (utilizando diferentes velocidades binarias para diferentes tipos de contenido de trama). Los codificadores de velocidad variable tratan de utilizar sólo la cantidad de bits necesaria para codificar los parámetros del códec hasta el nivel adecuado para obtener la calidad pretendida. Se describe un ejemplo de codificador CELP de velocidad variable en la patente US nº 5.414.796, cedida al cesionario de la presente
invención.

Los codificadores del dominio del tiempo, tales como el codificador CELP, suelen basarse en un gran número de bits, N_{0}, por trama para mantener la precisión de la forma de onda de voz en el dominio del tiempo. Dichos codificadores suelen proporcionar una calidad de voz excelente, siempre y cuando el número de bits, N_{0}, por trama sea relativamente grande (por ejemplo, 8 kbit/s o más). No obstante, a velocidades binarias bajas (4 kbit/s o menos), los codificadores del dominio del tiempo no consiguen mantener ni una alta calidad ni un funcionamiento estable debido al número limitado de bits disponibles. A bajas velocidades binarias, el limitado espacio de libro de código recorta la capacidad de concordancia de formas de onda de los codificadores del dominio del tiempo convencionales, que se utilizan de forma muy satisfactoria en las aplicaciones comerciales de velocidades más altas.

Actualmente, se ha producido un repentino aumento del interés por la investigación y de las necesidades comerciales para diseñar un codificador de voz de alta calidad que funcione a velocidades binarias del rango intermedio-bajo (es decir, de 2,4 a 4 kbit/s e inferiores). Las áreas de aplicación incluyen la telefonía inalámbrica, las comunicaciones por satélite, la telefonía por Internet, aplicaciones multimedia y de reproducción de voz en tiempo real diversas, correo de voz y otros sistemas de almacenamiento de voz. Este impulso proviene de la necesidad de disponer de una alta capacidad y de disponer de un funcionamiento estable en situaciones de pérdida de paquetes. Los recientes esfuerzos diversos de normalización de la codificación de la voz constituyen otra fuerza impulsora para la investigación y el diseño de algoritmos de codificación de voz a baja velocidad. Los codificadores de voz de baja velocidad crean más canales, o usuarios, por ancho de banda de aplicación admisible, y los codificadores de voz de baja velocidad acoplados a una capa adicional de codificación de canal adecuada pueden adaptarse al cálculo de bits global de las especificaciones del codificador y proporcionar un funcionamiento estable en condiciones de error del canal.

Para la codificación a velocidades binarias inferiores, se han diseñado diversos procedimientos de codificación de voz espectral, o en el dominio de la frecuencia, en los que la señal de voz se analiza como una evolución de variación temporal de los espectros (véase, por ejemplo, el documento Sinusoidal Coding de R.J. McAulay y T.F. Quatieri, en Speech Coding and Synthesis, cap. 4 (W.B. Kleijn y K.K. Paliwal eds., 1995). En los codificadores espectrales, el objetivo es modelizar, o predecir, el espectro de voz a corto plazo de cada trama de voz de entrada con un conjunto de parámetros espectrales, en lugar de imitar con precisión la forma de onda de voz variable con el tiempo. A continuación, los parámetros espectrales se codifican, y se crea una trama de voz de salida con los parámetros decodificados. La voz sintetizada resultante no concuerda con la forma de onda de la voz de entrada original, pero su calidad percibida es similar. Los ejemplos de codificadores del dominio de la frecuencia que son muy conocidos en la técnica incluyen los codificadores con excitación multibanda (MBE), los codificadores de transformación sinusoidal (STC) y los codificadores de armónicos (HC). Dichos codificadores del dominio de la frecuencia ofrecen un modelo paramétrico de alta calidad que presenta un conjunto de parámetros compacto que puede ser cuantificado con precisión con el reducido número de bits disponibles a bajas velocidades binarias.

A pesar de todo, la codificación a baja velocidad binaria impone la restricción crucial de una limitada resolución de codificación, o un limitado espacio de libro de código, hecho que limita la eficacia de los mecanismos de codificación individuales, incapacitando al codificador para representar con la misma precisión diversos tipos de segmentos de voz en diversas condiciones ambientales. Por ejemplo, los codificadores del dominio de la frecuencia de baja velocidad binaria convencionales no transmiten información de fase para las tramas de voz. En su lugar, la información de fase se reconstruye utilizando un valor de fase inicial aleatorio generado artificialmente y técnicas de interpolación lineal (véase, por ejemplo, el documento de H.Yang et al., Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, en 29 Electronic Letters, 856-57 (mayo de 1993). Debido a que la información de fase se genera artificialmente, aunque las amplitudes de las sinusoides se conserven perfectamente mediante el procedimiento de cuantificación-decuantificación, la voz de salida generada por el codificador del dominio de la frecuencia no se alineará con la voz de entrada original (es decir, los impulsos principales no estarán sincronizados). Por consiguiente, la adopción de alguna medida de rendimiento de bucle cerrado, tal como la relación señal-ruido (SNR) o la SNR perceptiva, resulta difícil en los codificadores del dominio de la frecuencia.

Se han empleado técnicas de codificación multimodo para realizar la codificación de voz a baja velocidad en conjunción con un procedimiento de decisión de modo de bucle abierto. Una de dichas técnicas de codificación multimodo se describe en el documento Multimode and Variable-Rate Coding of Speech, de Amitava Das et al., en Speech Coding and Synthesis, cap. 7 (W.B. Kleijn y K.K. Paliwal eds., 1995). Los codificadores multimodo convencionales aplican diferentes modos, o algoritmos de codificación-decodificación, a diferentes tipos de tramas de voz de entrada. Cada modo, o procedimiento de codificación-decodificación, se personaliza para que represente un determinado tipo de segmento de voz, tal como voz sonora, voz sorda o ruido de fondo (no voz) de la manera más eficaz. Un mecanismo de decisión de modo de bucle abierto externo examina la trama de voz de entrada y decide qué modo debe aplicar a la trama. La decisión de modo de bucle abierto se suele tomar extrayendo un número de parámetros de la trama de entrada, evaluando los parámetros relativos a ciertas características temporales y espectrales y basando la decisión de modo en la evaluación. Por lo tanto, la decisión de modo se toma sin conocer de antemano la condición exacta de la voz de salida, es decir, qué grado de concordancia tendrá la voz de salida con la voz de entrada en términos de calidad de voz u otras medidas de rendimiento.

De acuerdo con lo indicado, será deseable proporcionar un codificador del dominio de la frecuencia de baja velocidad binaria que calcule con más precisión la información de fase. También será ventajoso proporcionar un codificador multimodo de dominio mixto para codificar en el dominio del tiempo ciertas tramas de voz, y codificar en el dominio de la frecuencia otras tramas de voz, basándose en el contenido de voz de las tramas. También será deseable proporcionar un codificador de dominio mixto que pueda codificar ciertas tramas de voz en el dominio del tiempo, y codificar otras tramas en el dominio de la frecuencia según un mecanismo de decisión de modo de codificación de bucle cerrado. Finalmente, también sería ventajoso proporcionar un codificador de voz multimodo de dominio mixto y bucle cerrado que asegure la sincronización de tiempos entre la voz de salida generada por el codificador y la voz original introducida en el codificador. Dicho codificador de voz se describe en una solicitud de patente US relacionada, nº 09/259.151, presentada el 26 de febrero de 1999, titulada "CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDITCION (MDLP) SPEECH CODER" y cedida al cesionario de la presente invención.

También sería deseable proporcionar un procedimiento para asegurar la sincronización de tiempos entre la voz de salida generada por un codificador y la voz original introducida en el codificador. Por lo tanto, se plantea la necesidad de disponer de un procedimiento para realizar el seguimiento preciso de la fase de una señal casi periódica.

Sumario de la invención

La presente invención, definida por las reivindicaciones independientes adjuntas, se refiere a un procedimiento para realizar un seguimiento preciso de la fase de una señal casi periódica. En consecuencia, según un aspecto de la presente invención, un procedimiento para realizar el seguimiento de la fase de una señal que es periódica durante algunas tramas y no periódica durante otras tramas comprende ventajosamente las etapas de estimación la fase de la señal en las tramas durante las cuales la señal es periódica; supervisar el rendimiento de la fase estimada con una medida de rendimiento de bucle cerrado, y medir la fase de la señal en las tramas durante las cuales la señal es periódica y el rendimiento de la fase estimada se encuentra por debajo de un nivel umbral predefinido.

Según otro aspecto de la presente invención, un dispositivo para realizar el seguimiento de la fase de una señal que es periódica durante algunas tramas y no periódica durante otras tramas comprende ventajosamente unos medios para estimar la fase de la señal en las tramas durante las cuales la señal es periódica; unos medios para supervisar el rendimiento de la fase estimada con una medida de rendimiento de bucle cerrado y unos medios para medir la fase de la señal en las tramas durante las cuales la señal es periódica y el rendimiento de la fase estimada se encuentra por debajo de un nivel umbral predefinido.

Breve descripción de los dibujos

La Figura 1 es un diagrama de bloques de un canal de comunicación, cada extremo del cual termina con un codificador de voz.

La Figura 2 es un diagrama de bloques de un codificador que puede utilizarse en un codificador de voz multimodo de predicción lineal y dominio mixto (MDLP).

La Figura 3 es un diagrama de bloques de un decodificador que puede utilizarse en un codificador de voz multimodo MDLP.

La Figura 4 es un diagrama de flujo que ilustra las etapas de codificación MDLP realizadas por un codificador MDLP que puede utilizarse en el codificador de la Figura 2.

La Figura 5 es un diagrama de flujo que ilustra un procedimiento de decisión de codificación de voz.

La Figura 6 es un diagrama de bloques de un codificador de voz multimodo MDLP de bucle cerrado.

La Figura 7 es un diagrama de bloques de un codificador espectral que puede utilizarse en el codificador de la Figura 6 o el codificador de la Figura 2.

La Figura 8 es un gráfico amplitud-frecuencia, que ilustra las amplitudes de las sinusoides en un codificador de armónicos.

La Figura 9 es un diagrama de flujo que ilustra un procedimiento de decisión de modo en un codificador de voz multimodo MDLP.

La Figura 10A es un gráfico amplitud de señal-tiempo, y la Figura 10B es un gráfico amplitud de residuo de predicción lineal (LP)-tiempo.

La Figura 11A es un gráfico velocidad/modo-índice de trama según una decisión de codificación de bucle cerrado, la Figura 11B es un gráfico relación señal/ruido perceptiva (PSNR)-índice de trama según una condición de bucle cerrado y la Figura 11C es un gráfico velocidad/modo y PSNR-índice de trama en ausencia de una decisión de codificación de bucle cerrado.

La Figura 12 es un diagrama de bloques de un dispositivo para realizar el seguimiento de la fase de una señal casi periódica.

Descripción detallada de las formas de realización preferidas

En la Figura 1, un primer codificador 10 recibe muestras de voz digitalizadas s(n) y codifica las muestras s(n) para transmitirlas en un medio de transmisión 12, o canal de comunicación 12, a un primer decodificador 14. El decodificador 14 decodifica las muestras de voz codificadas y sintetiza una señal de voz de salida s_{SYNTH}(n). Para la transmisión en la dirección opuesta, un segundo codificador 16 codifica las muestras de voz digitalizadas s(n), que se transmiten en un canal de comunicación 18. Un segundo codificador 20 recibe y decodifica las tramas de voz codificadas, generando una señal de voz sintetizada de salida s_{SYNTH}(n).

Las muestras de voz s(n) representan señales de voz que han sido digitalizadas y cuantificadas según cualquiera de los diversos procedimientos conocidos en la técnica, incluidas, por ejemplo, la modulación por impulsos codificados (PCM), la ley \mu compandida o la ley A. Como se sabe en la técnica, las muestras de voz s(n) se organizan en tramas de datos de entrada, comprendiendo cada trama un número predeterminado de muestras de voz digitalizadas s(n). En un ejemplo de forma de realización, se emplea una frecuencia de muestreo de 8 kHz y cada trama de 20 ms comprende 160 muestras. En las formas de realización descritas más adelante, es posible variar ventajosamente la velocidad de transmisión de datos de trama en trama, desde la velocidad de 8 kbit/s (o velocidad completa) hasta la de 4 kbit/s (o media velocidad), la de 2 kbit/s (o cuarto de velocidad) y la de 1 kbit/s (u octavo de velocidad). Como alternativa, también pueden utilizarse otras velocidades de transmisión de datos. En la presente memoria, se utilizan los términos "velocidad completa" o "alta velocidad" para referirse en general a las velocidades de transmisión de datos que son mayores o iguales a 8 kbit/s, y los términos "media velocidad" o "baja velocidad" para referirse en general a velocidades de transmisión de datos que son menores o iguales a 4 kbit/s. La posibilidad de variar la velocidad de transmisión de datos resulta ventajosa, ya que de esta forma pueden emplearse velocidades binarias inferiores de forma selectiva para las tramas que contienen una cantidad de información de voz relativamente inferior. Como apreciarán los expertos en la materia, se pueden utilizar otras frecuencias de muestreo, tamaños de trama y velocidades de transmisión de datos.

El primer codificador 10 y el segundo decodificador 20 comprenden conjuntamente un primer codificador de voz o códec de voz. Análogamente, el segundo codificador 16 y el primer decodificador 14 comprenden conjuntamente un secundo codificador de voz. Los expertos en la materia sobrentenderán que los codificadores de voz pueden implementarse con un procesador de señales digitales (DSP), un circuito integrado de aplicaciones específicas (ASIC), lógica de compuerta discreta, firmware o cualquier módulo de software programable convencional y un microprocesador. El módulo de software puede residir en memoria RAM, memoria flash, registros o en cualquier otra forma de medios de almacenamiento grabables conocidos en la técnica. Como alternativa, el microprocesador puede ser sustituido por cualquier procesador, controlador o máquina de estados convencional. Se describen ejemplos de ASIC diseñados específicamente para la codificación de voz en la patente US nº 5.727.123, cedida al cesionario de la presente invención e incluida por completo en la presente memoria a título de referencia, y la solicitud de patente US de nº de serie 08/197.417, titulada "APPLICATION SPECIFIC INTEGRATED CIRCUIT (ASIC) FOR PERFORMING RAPID SPEECH COMPRESSION IN A MOBILE TELEPHONE SYSTEM", presentada el 16 de febrero de 1994, convertida ahora en la patente US nº 5.784.532, publicada el 21 de julio de 1998 y cedida al cesionario de la presente invención.

Según una forma de realización representada en la Figura 2, un codificador multimodo de predicción lineal y dominio mixto (MDLP) 100 que puede utilizarse en un codificador de voz comprende un módulo de decisión de modo 102, un módulo de estimación de altura tonal 104, un módulo de análisis de predicción lineal (LP) 106, un filtro de análisis LP 108, un módulo de cuantificación LP 110 y un codificador de residuo MDLP 112. Las tramas de voz de entrada
s(n) se proporcionan al módulo de decisión de modo 102, el módulo de estimación de altura tonal 104, el módulo de análisis LP 106 y el filtro de análisis LP 108. El módulo de decisión de modo 102 genera un índice de modo I_{M} y un modo M basándose en la periodicidad y otros parámetros extraídos, tales como la energía, la inclinación espectral, la frecuencia de cruce por cero, etc., de cada trama de voz de entrada s(n). Se describen diversos procedimientos para clasificar tramas de voz según la periodicidad en la solicitud de patente US de nº de serie 08/815.354, titulada "METHOD AND APPARATUS FOR PERFORMING SPEECH FRAME ENCODING MODE SELECTION IN A VARIABLE RATE ENCODING SYSTEM", presentada el 11 de marzo de 1997, convertida ahora en la patente US nº 5.911.128, publicada el 8 de junio de 1999 y cedida al cesionario de la presente invención. Dichos procedimientos se incluyen también en las normas provisionales TIA/EIA IS-127 y TIA/EIA IS-733 de Telecommunication Industry Association Industry.

El módulo de estimación de altura tonal 104 genera un índice de altura I_{P} y un valor de retardo P_{0} basándose en cada trama de voz de entrada s(n). El módulo de análisis LP 106 realiza el análisis de predicción lineal en cada trama de voz de entrada s(n) para generar un parámetro LP a. El parámetro LP a se proporciona al módulo de cuantificación LP 110. El módulo de cuantificación LP 110 recibe también el modo M y, en consecuencia, realiza el procedimiento de cuantificación según dicho modo. El módulo de cuantificación LP 110 genera un índice LP I_{LP} y un parámetro LP cuantificado â. El filtro de análisis LP 108 recibe el parámetro LP cuantificado â además de la trama de voz de entrada s(n). El filtro de análisis LP 108 genera una señal de residuo LP R[n], que representa el error entre las tramas de voz de entrada s(n) y la voz reconstruida, basándose en los parámetros de predicción lineal cuantificados â. El residuo
LP R[n], el modo M y el parámetro LP cuantificado â se proporcionan al codificador de residuo MDLP 112. Basándose en estos valores, el codificador de residuo MDLP 112 genera un índice de residuo I_{R} y una señal de residuo cuantificado \hat{R}[n], según las etapas descritas más adelante con referencia al diagrama de flujo de la figura 4.

En la Figura 3, un decodificador 200 que puede utilizarse en un codificador de voz incluye un módulo de decodificación de parámetro LP 202, un módulo de decodificación de residuo 204, un módulo de decodificación de modo 206 y un filtro de síntesis LP 208. El módulo de decodificación de modo 206 recibe y decodifica un índice de modo I_{M}, obteniendo a partir de éste un modo M. El módulo de decodificación de parámetro LP 202 recibe el modo M y un índice LP I_{LP}. El módulo de decodificación de parámetro LP 202 decodifica los valores recibidos para obtener un parámetro LP cuantificado â. El módulo de decodificación de residuo 204 recibe un índice de residuo I_{R}, un índice de altura tonal I_{P} y el índice de modo I_{M}. El módulo de decodificación de residuo 204 decodifica los valores recibidos para generar una señal de residuo cuantificado \hat{R}[n]. La señal de residuo cuantificado \hat{R}[n] y el parámetro LP cuantificado â se proporcionan al filtro de síntesis LP 208, que sintetiza una señal de voz de salida decodificada \hat{s}[n] a partir de éstos.

A excepción del codificador de residuo MDLP 112, el funcionamiento y la implementación de los diversos módulos del codificador 100 de la Figura 2 y el decodificador 200 de la Figura 3 son conocidos en la técnica y se describen en la patente US nº 5.414.796 mencionada anteriormente y en el documento de L.B. Rabiner y R.W. Schafer Digital Processing of Speech Signals, 396-453 (1978).

Según una forma de realización, un codificador MDLP (no representado) realiza las etapas representadas en el diagrama de flujo de la Figura 4. El codificador MDLP podría ser el codificador de residuo MDLP 112 de la Figura 2. En la etapa 300, el codificador MDLP comprueba si el modo M es de velocidad completa (FR), cuarto de velocidad (QR) u octavo de velocidad (ER). Si el modo M es FR, QR o ER, el codificador MDLP continúa por la etapa 302. En la etapa 302, el codificador MDLP aplica la correspondiente velocidad (FR, QR o ER, dependiendo del valor de M) al índice de residuo I_{R}. La codificación en el dominio del tiempo, que para el modo FR es una codificación de alta velocidad y alta precisión que puede ser ventajosamente la codificación CELP, se aplica a una trama de residuo LP o, como alternativa, a una trama de voz. A continuación, la trama se transmite (después de un procesamiento de señal adicional, que incluye la conversión digital-analógica y la modulación). En una forma de realización, la trama es una trama de residuo LP que representa el error de predicción. En una forma de realización alternativa, la trama es una trama de voz que representa muestras de voz.

Por otra parte, si en la etapa 300 el modo M no es ni FR ni QR ni ER (es decir, el modo M es de media velocidad (HR)), el codificador MDLP continúa por la etapa 304. En la etapa 304, se aplica codificación espectral, que ventajosamente es codificación de armónicos, a media velocidad al residuo LP o, como alternativa, a la señal de voz. A continuación, el codificador MDLP continúa por la etapa 306. En la etapa 306, se obtiene una medida de distorsión D decodificando la voz codificada y comparándola con la trama de entrada original. Entonces, el codificador MDLP continúa por la etapa 308. En la etapa 308, la medida de distorsión D se compara con un valor umbral predefinido T. Si la medida de distorsión D es superior al umbral T, los correspondientes parámetros cuantificados para la trama codificada espectralmente a media velocidad se modulan y transmiten. Por otra parte, si la medida de distorsión D no es superior al umbral T, el codificador MDLP continúa por la etapa 310. En la etapa 310, la trama decodificada se vuelve a codificar en el dominio del tiempo a velocidad completa. Puede utilizarse cualquier algoritmo de codificación de alta velocidad y alta precisión convencional (puede ser ventajosamente un algoritmo de codificación CELP). Entonces, los parámetros cuantificados de modo FR asociados a la trama se demodulan y transmiten.

Como se ilustra en el diagrama de flujo de la Figura 5, un codificador de voz multimodo MDLP de bucle cerrado según una forma de realización sigue un conjunto de etapas para procesar las muestras de voz que se van a transmitir. En la etapa 400, el codificador de voz recibe muestras digitales de una señal de voz en tramas consecutivas. Tras recibir una trama dada, el codificador de voz continúa por la etapa 402. En la etapa 402, el codificador de voz detecta la energía de la trama. La energía es una medida de la actividad vocal de la trama. La detección de voz se realiza sumando los cuadrados de las amplitudes de las muestras de voz digitalizadas y comparando la energía resultante con un valor umbral. En una forma de realización, el valor umbral se adapta de acuerdo con el nivel cambiante del ruido de fondo. Se describe un ejemplo de detector de actividad vocal de umbral variable en la patente US nº 5.414.796 mencionada anteriormente. Algunos sonidos de voz sorda pueden ser muestras de energía sumamente baja que pueden codificarse erróneamente como ruido de fondo. Para impedir que esto suceda, puede utilizarse la inclinación espectral de las muestras de baja energía para diferenciar la voz sorda del ruido de fondo, como se describe en la patente US nº 5.414.796 mencionada anteriormente.

Una vez detectada la energía de la trama, el codificador de voz continúa por la etapa 404. En la etapa 404, el codificador de voz determina si la energía de la trama detectada es suficiente para clasificar la trama como una trama que contiene información de voz. Si la energía de la trama detectada está por debajo de un nivel umbral predefinido, el codificador de voz continúa por la etapa 406. En la etapa 406, el codificador de voz codifica la trama como ruido de fondo (es decir, como no voz o silencio). En una forma de realización, la trama de ruido de fondo se codifica en el dominio del tiempo a 1/8 de velocidad o 1 kbit/s. Si en la etapa 404 la energía de la trama detectada alcanza o sobrepasa el nivel umbral predefinido, la trama se clasifica como trama de voz y el codificador de voz continúa por la etapa 408.

En la etapa 408, el codificador de voz determina si la trama es periódica. Varios de los procedimientos conocidos para determinar la periodicidad incluyen, por ejemplo, la utilización de los cruces por cero y la utilización de funciones de autocorrelación normalizada (NACF). En particular, la utilización de cruces por cero y NACF para detectar la periodicidad se describe en la solicitud de patente US de nº de serie 08/815.354, titulada "METHOD AND APPARATUS FOR PERFORMING SPEECH FRAME ENCODING MODE SELECTION IN A VARIABLE RATE ENCODING SYSTEM", presentada el 11 de marzo de 1997, convertida ahora en la patente US nº 5.911.128, publicada el 8 de junio de 1999, cedida al cesionario de la presente invención e incorporada por completo en la presente memoria a título de referencia. Además, los procedimientos anteriores utilizados para diferenciar la voz sonora de la voz sorda se incluyen en las normas provisionales TIA/EIA IS-127 y TIA/EIA IS-733 de Telecommunication Industry Association Industry. Si se determina que la trama no es periódica en la etapa 408, el codificador de voz continúa por la etapa 410. En la etapa 410, el codificador de voz codifica la trama como una trama de voz sorda. En una forma de realización, las tramas de voz sorda se codifican en el dominio del tiempo a 1/4 de velocidad o 2 kbit/s. Si en la etapa 408 se determina que la trama es periódica, el codificador de voz continúa por la etapa 412.

En la etapa 412, el codificador de voz determina si la trama es suficientemente periódica, mediante procedimientos de detección de periodicidad conocidos en la técnica, tales como los descritos, por ejemplo, en la patente US nº 5.911.128 mencionada anteriormente. Si se determina que la trama no es suficientemente periódica, el codificador de voz continúa por la etapa 414. En la etapa 414, la trama se codifica en el dominio del tiempo como una trama de voz de transición (es decir, de transición de voz sorda a voz sonora). En una forma de realización, la trama de voz de transición se codifica en el dominio del tiempo a velocidad completa u 8 kbit/s.

Si en la etapa 412, el codificador de voz determina que la trama es suficientemente periódica, el codificador de voz continúa por la etapa 416. En la etapa 416, el codificador de voz codifica la trama como una trama de voz sonora. En una forma de realización, las tramas de voz sonora se codifican espectralmente a media velocidad o 4 kbit/s. De forma ventajosa, las tramas de voz sonora se codifican espectralmente con un codificador de armónicos, como se describe más adelante con referencia a la Figura 7. Por otra parte, pueden utilizarse otros codificadores espectrales, tales como los codificadores de transformación sinusoidal o los codificadores con excitación multibanda conocidos en la técnica. A continuación, el codificador de voz continúa por la etapa 418. En la etapa 418, el codificador de voz decodifica la trama de voz sonora codificada. Entonces, el codificador de voz continúa por la etapa 420. En la etapa 420, la trama de voz sonora decodificada se compara con las correspondientes muestras de voz de entrada para esa trama para obtener una medida de la distorsión de la voz sintetizada y para determinar si el modelo de codificación espectral de voz sonora de me-
dia velocidad está funcionando dentro de límites aceptables. El codificador de voz continúa entonces por la etapa 422.

En la etapa 422, el codificador de voz determina si el error entre la trama de voz sonora decodificada y las muestras de voz de entrada correspondientes a esa trama está por debajo de un valor umbral predefinido. Según una forma de realización, esta determinación se realiza de la manera descrita más adelante con referencia a la Figura 6. Si la distorsión de codificación se encuentra por debajo del valor umbral predefinido, el codificador de voz continúa por la etapa 426. En la etapa 426, el codificador de voz transmite la trama como una trama de voz sonora, mediante los parámetros de la etapa 416. Si en la etapa 422 la distorsión de codificación alcanza o supera el valor umbral predefinido, el codificador de voz continúa por la etapa 414, codificando en el dominio del tiempo la trama de muestras de voz digitalizadas recibida en la etapa 400 como voz de transición, a velocidad completa.

Debe destacarse que las etapas 400 a 410 comprenden un modo de decisión de codificación de bucle abierto. Las etapas 412 a 426, por otro lado, comprenden un modo de decisión de codificación de bucle cerrado.

En una forma de realización, representada en la Figura 6, un codificador de voz multimodo MDLP de bucle cerrado incluye un convertidor analógico-digital (A/D) 500 acoplado a una memoria tampón de tramas 502 que, a su vez, está acoplada a un procesador de control 504. Acoplados al procesador de control 504, están un calculador de energía 506, un detector de voz sonora 508, un codificador de ruido de fondo 510, un codificador del dominio del tiempo de alta velocidad 512 y un codificador espectral de baja velocidad 514. Un decodificador espectral 516 está acoplado al codificador espectral 514, y un calculador de error 518 está acoplado al decodificador espectral 516 y al procesador de control 504. Un comparador de umbral 520 está acoplado al calculador de error 518 y al procesador de control 504. Una memoria tampón 522 está acoplada al codificador espectral 514, al decodificador espectral 516 y al comparador de umbral 520.

En la forma de realización de la Figura 6, los componentes del codificador de voz se implementan ventajosamente como firmware u otro tipo de módulos basados en software en el codificador de voz, que a su vez reside ventajosamente en un DSP o un ASIC. Los expertos en la materia sobrentenderán que los componentes del codificador de voz pueden implementarse igualmente en otras diversas maneras conocidas. El procesador de control 504 puede ser ventajosamente un microprocesador, o puede implementarse con un controlador, una máquina de estados o lógica discreta.

En el codificador multimodo de la Figura 6, las señales de voz se proporcionan al A/D 500. El A/D 500 convierte las señales analógicas en tramas de muestras de voz digitalizadas, S(n). Las muestras de voz digitalizadas se proporcionan a la memoria tampón de tramas 502. El procesador de control 504 obtiene las muestras de voz digitalizadas de la memoria de tramas 502 y las proporciona al calculador de energía 506. El calculador de energía 506 calcula la energía, E, de las muestras de voz según la ecuación siguiente:

E = \sum \limits^{159}_{n=0} S^{2}(n)

en la que las tramas son de 20 ms de longitud y la frecuencia de muestreo es de 8 kHz. La energía calculada, E, se envía al procesador de control 504.

El procesador de control 504 compara la energía de voz calculada con un umbral de actividad vocal. Si la energía calculada está por debajo del umbral de actividad vocal, el procesador de control 504 dirige las muestras de voz digitalizadas desde la memoria tampón de tramas 502 hasta el codificador de ruido de fondo 510. El codificador de ruido de fondo 510 codifica la trama utilizando el número mínimo de bits necesarios para mantener una estimación del ruido de fondo.

Si la energía calculada es mayor o igual al umbral de actividad vocal, el procesador de control 504 dirige las muestras de voz digitalizadas desde la memoria tampón de tramas 502 hasta el detector de voz sonora 508. El detector de voz sonora 508 determina si la periodicidad de la trama de voz permitirá una codificación eficaz mediante codificación espectral a baja velocidad binaria. Los procedimientos para determinar el nivel de periodicidad en una trama de voz son muy conocidos en la técnica e incluyen, por ejemplo, la utilización de funciones de autocorrelación normalizada (NACF) y de los cruces por cero. Éstos y otros procedimientos se describen en la patente US nº 5.911.128 mencionada anteriormente.

El detector de voz sonora 508 proporciona una señal al procesador de control 504, en la que indica si la trama de voz contiene voz con una periodicidad suficiente como para ser codificada eficazmente por el codificador espectral 514. Si el detector de voz sonora 508 determina que la trama de voz carece de suficiente periodicidad, el procesador de control 504 dirige las muestras de voz digitalizadas al codificador de alta velocidad 512, que codifica la voz en el dominio del tiempo a una velocidad de transmisión de datos máxima predeterminada. En una forma de realización, la velocidad de transmisión de datos máxima predeterminada es de 8 kbit/s y el codificador de alta velocidad 512 es un codificador CELP.

Si el detector de voz sonora 508 determina inicialmente que la señal de voz presenta una periodicidad suficiente como para ser codificada con eficacia por el codificador espectral 514, el procesador de control 504 dirige las muestras de voz digitalizadas desde la memoria tampón de tramas 502 hasta el codificador espectral 514. Más adelante, se describe en detalle un ejemplo de codificador espectral con referencia a la Figura 7.

El codificador espectral 514 extrae la frecuencia de altura tonal estimada, F_{0}, las amplitudes, A_{I}, de los armónicos de la frecuencia de altura tonal y la información sonora V_{c}. El codificador espectral 514 proporciona estos parámetros a la memoria tampón 522 y al decodificador espectral 516. El decodificador espectral 516 puede ser ventajosamente análogo al decodificador de los codificadores CELP tradicionales. El decodificador espectral 516 genera muestras de voz sintetizadas,

\hat{S}(n)

según un formato de decodificación espectral (descrito más adelante con referencia a la Figura 7) y proporciona las muestras de voz sintetizadas al calculador de error 518. El procesador de control 504 envía las muestras de voz, S(n), al calculador de error 518.

El calculador de error 518 calcula el error mínimo cuadrático (MSE) entre cada muestra de voz, S(n), y cada correspondiente muestra de voz sintetizada,

\hat{S}(n)

según la ecuación siguiente:

MSE = \sum \limits^{159}_{n=0}(S(n)- \hat{S}(n))^{2}

El MSE calculado se proporciona al comparador de umbral 520, que determina si el nivel de distorsión se halla dentro de límites aceptables, es decir, si el nivel de distorsión está por debajo de un valor umbral predefinido.

Si el MSE calculado se halla dentro de límites aceptables, el comparador de umbral 520 proporciona la señal a la memoria tampón de tramas 502 y los datos codificados espectralmente se proporcionan desde el codificador de voz. En cambio, si el MSE no se halla dentro de límites aceptables, el comparador de umbral 520 proporciona una señal al procesador de control 504, que, a su vez, dirige las muestras digitalizadas desde la memoria tampón de tramas 502 hasta el codificador del dominio del tiempo de alta velocidad 512. El codificador del dominio del tiempo 512 codifica las tramas a una velocidad máxima predeterminada, y el contenido de la memoria tampón 522 se re-
chaza.

En la forma de realización de la Figura 6, el tipo de codificación espectral empleado es la codificación de armónicos, descrita más adelante con referencia a la Figura 7, pero, como alternativa, puede ser cualquier tipo de codificación espectral, tal como la codificación de transformación sinusoidal o la codificación con excitación multibanda. La utilización de codificación con excitación multibanda se describe, por ejemplo, en la patente US nº 5.195.166, y la utilización de codificación de transformación sinusoidal se describe, por ejemplo, en la patente US nº 4.865.068.

Para las tramas de transición y para las tramas sonoras cuyo valor de umbral de distorsión de fase es igual o inferior al parámetro de periodicidad, el codificador multimodo de la Figura 6 emplea ventajosamente la codificación CELP a velocidad completa u 8 kbit/s, por medio del codificador del dominio del tiempo de alta velocidad 512. Como alternativa, puede utilizarse cualquier otra forma conocida de codificación en el dominio del tiempo a alta velocidad para dichas tramas. Por lo tanto, las tramas de transición (y las tramas sonoras que no son suficientemente periódicas) se codifican con una precisión alta, de tal forma que las formas de onda en la entrada y la salida concuerdan bien y la información de fase se conserva en buen estado. En una forma de realización, el codificador multimodo cambia de la codificación espectral a media velocidad a la codificación CELP a velocidad completa para una trama, sin tener en cuenta la determinación del comparador de umbral 520, una vez que se ha procesado un número predefinido de tramas sonoras consecutivas para las cuales el valor umbral sobrepasa la medida de periodicidad.

Debe destacarse que, en conjunción con el procesador de control 504, el calculador de energía 506 y el detector de voz sonora 508 comprenden decisiones de codificación de bucle abierto. Por el contrario, en conjunción con el procesador de control 504, el codificador espectral 514, el decodificador espectral 516, el calculador de error 518, el comparador de umbral 520 y la memoria tampón 522 comprenden una decisión de codificación de bucle cerrado.

En una forma de realización, descrita con referencia a la Figura 7, se utiliza codificación espectral, y ventajosamente codificación de armónicos, para codificar tramas sonoras suficientemente periódicas a una velocidad binaria baja. Los codificadores espectrales se definen generalmente como algoritmos que tratan de conservar la evolución temporal de las características espectrales de la voz de una manera perceptivamente significativa, modelizando y codificando cada trama de voz en el dominio de la frecuencia. Las partes esenciales de dichos algoritmos son: (1) el análisis espectral o la estimación de parámetros; (2) la cuantificación de parámetros y (3) la síntesis de la forma de onda de la voz de salida con los parámetros decodificados. Por lo tanto, el objetivo es conservar las características importantes del espectro de voz a corto plazo con un conjunto de parámetros espectrales, codificar los parámetros y finalmente sintetizar la voz de salida mediante los parámetros espectrales decodificados. Habitualmente, la voz de salida se sintetiza como una suma ponderada de sinusoides. Las amplitudes, frecuencias y fases de las sinusoides son los parámetros espectrales estimados durante el análisis.

Aunque el "análisis por síntesis" es una técnica muy conocida de la codificación CELP, esta técnica no es explotada en la codificación espectral. La razón principal por la que el análisis por síntesis no se aplica a los codificadores espectrales es que, debido a la pérdida de la información de fase inicial, la energía mínima cuadrática (MSE) de la voz sintetizada puede ser alta aun cuando el modelo de voz se comporte correctamente desde un punto de vista perceptivo. Por lo tanto, otra ventaja de generar con precisión la fase inicial es la capacidad resultante para comparar directamente las muestras de voz y la voz reconstruida, que permite determinar si el modelo de voz está codificando las tramas de voz con precisión.

En la codificación espectral, la trama de voz de salida se sintetiza según la ecuación siguiente:

S[n] = S_{v}[n] + S_{uv}[n],

\hskip2cm

n = 1, 2..., N

en la que N es el número de muestras por trama y S_{V} y S_{UV} son los componentes sonoros y sordos, respectivamente. Un procedimiento síntesis de suma de sinusoides crea el componente sonoro según la ecuación siguiente:

S[n] = \sum\limits^{L}_{k=1} A(k,n)\cdot cos(2 \pi nf_{k} + \theta(k,n))

en la que L es el número total de sinusoides, f_{K} son las frecuencias que interesan del espectro a corto plazo, A(k,n) son las amplitudes de las sinusoides y \theta(k,n) son las fases de las sinusoides. La amplitud, la frecuencia y los parámetros de fase se estiman a partir del espectro a corto plazo de la trama de entrada, mediante un procedimiento de análisis espectral. El componente sordo puede crearse junto con la parte sonora en una única síntesis de suma de sinusoides, o puede calcularse por separado utilizando un procedimiento de síntesis de voz sorda dedicado y, a continuación, sumándolo a S_{v}.

En la forma de realización de la Figura 7, se utiliza un tipo particular de codificador espectral denominado codificador de armónicos para codificar espectralmente tramas sonoras suficientemente periódicas a una velocidad binaria baja. Los codificadores de armónicos caracterizan la trama como una suma de sinusoides, analizando segmentos pequeños de la trama. Cada sinusoide de la suma de sinusoides presenta una frecuencia que es un múltiplo entero de la altura tonal, F_{0}, de la trama. En una forma de realización alternativa, en la que el tipo particular de codificador espectral utilizado es distinto a un codificador de armónicos, las frecuencias de las sinusoides de cada trama se obtienen a partir de un conjunto de números reales entre 0 y 2 \pi. En la forma de realización de la Figura 7, las amplitudes y fases de cada sinusoide de la suma se seleccionan ventajosamente, de tal forma que la suma presente la mayor concordancia con la señal durante un período, como se ilustra mediante el gráfico de la Figura 8. Los codificadores de armónicos suelen emplear una clasificación externa, que marca cada trama de voz de entrada como trama de voz sonora o sorda. Para una trama sonora, las frecuencias de las sinusoides se restringen a los armónicos de la altura tonal estimada (F_{0}), es decir, f_{k} = kF_{0}. Para la voz sorda, los picos del espectro a corto plazo se utilizan para determinar las sinusoides. Las amplitudes y las fases se interpolan para imitar su evolución a través de la trama, según las ecuaciones siguientes:

A(k,n) = C_{1}(k) \text{*} n + C_{2}(k)

\theta (k,n) = B_{1}(k) \text{*} n^{2} + B_{2}(k) \text{*} n + B_{3}(k)

en las que los coeficientes [Ci(k), Bi(k)] se estiman a partir de los valores instantáneos de las amplitudes, las frecuencias y las fases en las ubicaciones de frecuencia especificadas f_{k}(=kf_{0}), obtenidos de la transformada de Fourier de corto plazo (STFT) de una trama de voz de entrada enventanada. Los parámetros que se van a transmitir por sinusoide son la amplitud y la frecuencia. La fase no se transmite, sino que se modeliza según cualquiera de las diversas técnicas conocidas, incluidas, por ejemplo, el modelo de fase cuadrática o cualquier representación polinómica convencional de la fase.

Como se ilustra en la Figura 7, un codificador de armónicos incluye un extractor de altura tonal 600 acoplado a la lógica de enventanado 602 y la lógica de transformada discreta de Fourier (DTF) y análisis de armónicos 604. El extractor de altura tonal 600, que recibe muestras de voz, S(n), como entrada, está acoplado también a la lógica de DFT y análisis de armónicos 604. La lógica de DFT y análisis de armónicos 604 está acoplada a un codificador de residuo 606. El extractor de altura tonal 600, la lógica de DFT y análisis de armónicos 604 y el codificador de residuo 606 están acoplados a un cuantificador de parámetros 608 cada uno. El cuantificador de parámetros 608 está acoplado a un codificador de canal 610, que, a su vez, está acoplado a un transmisor 612. El transmisor 612 está acoplado por medio de una interfaz de radiofrecuencia estándar (RF), tal como una interfaz aérea de acceso múltiple por división del código (CDMA), a un receptor 614. El receptor 614 está acoplado a un decodificador de canal 616, que, a su vez, está acoplado a un decuantificador 618. El decuantificador 68 está acoplado a un sintetizador de voz de suma de sinusoides 620. También acoplado al sintetizador de voz de suma de sinusoides 620, está un estimador de fase 622, que recibe información de la trama previa como entrada. El sintetizador de voz de suma de sinusoides 620 está configurado para generar una salida de voz sintetizada, S_{SYNTH}(n).

El extractor de altura tonal 600, la lógica de enventanado 602, la lógica de DFT y análisis de armónicos 604, el codificador de residuo 606, el cuantificador de parámetros 608, el codificador de canal 610, el decodificador de canal 616, el decuantificador 618, el sintetizador de voz de suma de sinusoides 620 y el estimador de fase 622 pueden implementarse en una diversidad de formas diferentes conocidas por los expertos en la materia, incluido el firmware o los módulos de software. El transmisor 612 y el receptor 614 pueden implementarse con cualquier componente RF estándar equivalente conocido por los expertos en la materia.

En el codificador de armónicos de la Figura 7, el extractor de altura tonal 600 recibe muestras de entrada S(n) y extrae información de frecuencia de altura tonal F_{0}. A continuación, la lógica de enventanado 602 multiplica las muestras por una función de enventanado adecuada para permitir el análisis de segmentos pequeños de una trama de voz. Mediante la información de altura tonal aportada por el extractor de altura tonal 600, la lógica de DFT y análisis de armónicos 604 calcula la DFT de las muestras para generar puntos espectrales complejos a partir de los cuales se obtienen las amplitudes de los armónicos, A_{1}, como se ilustra mediante el gráfico de la Figura 8, en el cual L denota el número total de armónicos. La DFT se proporciona al codificador de residuo 606, que extrae información de voz sonora, V_{c}.

Debe destacarse que el parámetro V_{c} denota un punto del eje de las frecuencias, representado en la Figura 8, por encima del cual el espectro es característico de una señal de voz sorda y deja de ser armónico. En cambio, por debajo del punto V_{c}, el espectro es armónico y característico de la voz sonora.

Los componentes A_{I,} F_{0} y V_{c} se proporcionan al cuantificador de parámetros 608, que cuantifica la información. La información cuantificada se proporciona en forma de paquetes al codificador de canal 610, que cuantifica los paquetes a baja velocidad binaria (por ejemplo, a media velocidad o 4 kbit/s). Los paquetes se proporcionan al transmisor 612, que modula los paquetes y transmite la señal resultante por aire hasta el receptor 614. El receptor 614 recibe y demodula la señal, pasando los paquetes codificados al decodificador de canal 616. El decodificador de canal 616 decodifica los paquetes y proporciona los paquetes decodificados al decuantificador 618. El decuantificador 618 decuantifica la información. La información se proporciona al sintetizador de voz de suma de sinusoides 620.

El sintetizador de voz de suma de sinusoides 620 está configurado para sintetizar una pluralidad de sinusoides modelizando el espectro de voz a corto plazo según la ecuación anterior para S[n]. Las frecuencias de las sinusoides, f_{k}, son múltiplos o armónicos de la frecuencia fundamental, F_{0}, que es la frecuencia de la periodicidad de altura tonal para segmentos de voz sonora casi periódicos (es decir, de transición).

El sintetizador de voz de suma de sinusoides 620 recibe también información de fase desde el estimador de fase 622. El estimador de fase 622 recibe información de la trama anterior, es decir, los parámetros A_{I}, F_{0} y V_{c} para la trama inmediatamente precedente. El estimador de fase 622 recibe también las N muestras reconstruidas de la trama anterior, siendo N la longitud de la trama (es decir, N es el número de muestras por trama). El estimador de fase 622 determina la fase inicial para la trama, basándose en la información de la trama anterior. La determinación de fase inicial se proporciona al sintetizador de voz de suma de sinusoides 620. Basándose en la información de la trama actual y el cálculo de fase inicial realizado por el estimador de fase 622 basándose en la información de la trama anterior, el sintetizador de voz de suma de sinusoides 620 genera tramas de voz sintéticas, como se describe anteriormente.

Tal como se ha descrito, los codificadores de armónicos sintetizan, o reconstruyen, tramas de voz mediante la información de la trama anterior y la predicción de que la fase varía linealmente de trama en trama. En el modelo de síntesis descrito anteriormente, que por lo general se denomina modelo de fase cuadrática, el coeficiente B_{3}(k) representa la fase inicial para la trama sonora actual que se está sintetizando. Cuando se determina la fase, los codificadores de armónicos convencionales establecen la fase inicial en cero o generan un valor de fase inicial de forma aleatoria o con algún procedimiento de generación pseudoaleatorio. Para predecir la fase con más precisión, el estimador de fase 622 utiliza uno de los dos procedimientos posibles para la determinación de la fase inicial, dependiendo de si se ha determinado que la trama inmediatamente precedente era una trama de voz sonora (es decir, una trama suficientemente periódica) o una trama de voz de transición. Si la trama anterior era una trama de voz sonora, el valor de fase final estimado de dicha trama se utiliza como valor de fase inicial para la trama actual. Por otro lado, si la trama anterior se ha clasificado como una trama de transición, el valor de fase inicial para la trama actual se obtiene del espectro de la trama anterior, que se obtiene realizando una DFT de la salida del decodificador para la trama anterior. Por lo tanto, el estimador de fase 622 utiliza la información de fase precisa que ya está disponible (debido a que la trama anterior, que era una trama de transición, ha sido procesada a velocidad
completa).

En una forma de realización, un codificador de voz multimodo MDLP de bucle cerrado sigue las etapas de procesamiento de voz ilustradas en el diagrama de flujo de la Figura 9. El codificador de voz codifica el residuo LP de cada trama de voz de entrada, eligiendo el modo de codificación más adecuado. Ciertos modos codifican el residuo LP, o el residuo de voz, en el dominio del tiempo, mientras que otros modos representan el residuo LP, o el residuo de voz, en el dominio de la frecuencia. El conjunto de modos es: velocidad completa en el dominio del tiempo para las tramas de transición (modo T); media velocidad en el dominio de la frecuencia para las tramas sonoras (modo V); cuarto de velocidad en el dominio del tiempo para las tramas sordas (modo U) y octavo de velocidad en el dominio del tiempo para las tramas de ruido (modo N).

Los expertos en la materia observarán que la señal de voz o el correspondiente residuo LP pueden codificarse siguiendo las etapas representadas en la Figura 9. Las características de forma de onda del ruido, la voz sorda, la voz de transición y la voz sonora pueden observarse como una función del tiempo en el gráfico de la Figura 10A. Las características de la forma de onda del residuo LP del ruido, la voz sorda, la voz de transición y la voz sonora pueden observarse como una función del tiempo en el gráfico de la Figura 10B.

En la etapa 700, se toma una decisión de modo de bucle abierto para decidir cuál de los cuatro modos (T, V, U o N) debe aplicarse al residuo de voz de entrada, S(n). Si va a aplicarse el modo T, el residuo de voz se procesa según el modo T, es decir a velocidad completa y en el dominio del tiempo, en la etapa 702. Si va a aplicarse el modo U, el residuo de voz se procesa según el modo U, es decir, a cuarto de velocidad y en el dominio del tiempo, en la etapa 704. Si va a aplicarse el modo N, el residuo de voz se procesa según el modo N, es decir, a octavo de velocidad y en el dominio del tiempo, en la etapa 706. Si va a aplicarse el modo V, el residuo de voz se procesa según el modo V, es decir, a media velocidad y en el dominio de la frecuencia, en la etapa 708.

En la etapa 710, la voz codificada en la etapa 708 se decodifica y compara con el residuo de voz de entrada, S(n), y se calcula una medida del rendimiento, D. En la etapa 712, la medida de rendimiento, D, se compara con un valor umbral predefinido, T. Si la medida de rendimiento, D, es mayor o igual al umbral, T, se determina que el residuo de voz codificado espectralmente de la etapa 708 es adecuado para la transmisión, en la etapa 714. Por otro lado, si la medida de rendimiento, D, es inferior al umbral, T, el residuo de la voz de entrada, S(n), se procesa según el modo T, en la etapa 716. En una forma de realización alternativa, no se calcula ninguna medida de rendimiento y no se define ningún valor umbral. En su lugar, una vez que se ha procesado un número predefinido de tramas de residuo de voz según el modo V, la trama siguiente se procesa según el modo T.

Ventajosamente, las etapas de decisión representadas en la Figura 9 permiten utilizar el modo T de alta velocidad binaria sólo cuando es necesario, explotando la periodicidad de los segmentos de voz sonora con el modo V de velocidad binaria inferior, e impidiendo al mismo tiempo ningún decaimiento de la calidad debido al cambio a velocidad completa cuando el modo V no funciona correctamente. En consecuencia, es posible generar una voz de calidad sumamente alta cercana a la calidad de la voz de velocidad completa, a una velocidad media que es significativamente inferior a la velocidad completa. Por otra parte, la calidad de voz pretendida puede controlarse mediante la medida de rendimiento seleccionada y el umbral elegido.

Las "actualizaciones" al modo T mejoran también el rendimiento de las aplicaciones subsiguientes del modo V, manteniendo la trayectoria de la fase modelizada cerca de la trayectoria de la fase de la voz de entrada. Cuando el rendimiento del modo V es inadecuado, la comprobación de rendimiento de bucle cerrado de las etapas 710 y 712 cambia al modo T y, por lo tanto, el rendimiento del subsiguiente procesamiento en modo V mejora mediante la "renovación" del valor de fase inicial, hecho que permite que la trayectoria de la fase modelizada se acerque de nuevo a la trayectoria de la fase de voz de entrada original. A título de ejemplo, como se representa mediante los gráficos de las Figuras 11A a C, la quinta trama desde el principio no presenta un comportamiento adecuado en el modo V, como se pone de manifiesto mediante la medida de la distorsión PSNR utilizada. Por consiguiente, sin una decisión y una actualización de bucle cerrado, la trayectoria de fase modelizada se desvía significativamente de la trayectoria de la fase de la voz de entrada original, provocando una grave degradación de la PSNR, como se observa en la Figura 11C. Por otra parte, el comportamiento de las subsiguientes tramas procesadas según el modo V se degrada. Según una decisión de bucle cerrado, no obstante, la quinta trama cambia al procesamiento en modo T, como se representa en la Figura 11A. El comportamiento de la quinta trama mejora significativamente gracias a la actualización, como pone de manifiesto la mejora de la PSNR, representada en la Figura 11B. Además, el comportamiento de las subsiguientes tramas procesadas en el modo V también mejora.

Las etapas de decisión representadas en la Figura 9 mejoran la calidad de la representación del modo V, proporcionando un valor de estimación de fase inicial sumamente preciso y asegurando, así, que la señal de residuo de voz sintetizada en modo V resultante esté alineada temporalmente de forma precisa con el residuo de voz de entrada original, S(n). La fase inicial para el primer segmento de residuo de voz procesado en modo V se obtiene de la trama decodificada inmediatamente precedente de la manera descrita a continuación. Para cada armónico, la fase inicial se iguala a la fase final estimada de la trama precedente si la trama precedente se ha procesado en el modo V. Para cada armónico, la fase inicial se iguala a la fase real del armónico de la trama precedente si la trama precedente se ha procesado en el modo T. La fase real del armónico de la trama precedente puede calcularse obteniendo una DFT del pasado residuo decodificado mediante toda la trama precedente. Como alternativa, la fase real del armónico de la trama precedente puede calcularse obteniendo una DFT de la pasada trama decodificada en sincronía de altura tonal, procesando diversos períodos de altura tonal de la trama prece-
dente.

En una forma de realización, descrita con referencia a la Figura 12, se introducen tramas consecutivas de una señal casi periódica, S, en la lógica de análisis 800. La señal casi periódica, S, puede ser, por ejemplo, una señal de voz. Algunas tramas de la señal son periódicas, mientras que otras tramas de la señal son no periódicas o aperiódicas. La lógica de análisis 800 mide la amplitud de la señal y proporciona la amplitud medida, A. La lógica de análisis 800 mide también la fase de la señal y proporciona la fase medida, P. La amplitud, A, se proporciona a la lógica de síntesis 802. También se pasa un valor de fase, P_{OUT}, a la lógica de síntesis 802. El valor de fase, P_{OUT}, puede ser el valor de fase medida, P, o puede ser un valor de fase estimada, P_{EST}, como se describe más abajo. La lógica de síntesis 802 sintetiza una señal y proporciona la señal sintetizada, S_{SYNTH}.

La señal casi periódica, S, se proporciona también a la lógica de clasificación 804, que clasifica la señal como una señal aperiódica o periódica. Para las tramas aperiódicas de la señal, la fase, P_{OUT}, que se proporciona a la lógica de síntesis 802 se iguala a la fase medida, P. Las tramas periódicas de la señal se proporcionan a la lógica de estimación de fase de bucle cerrado 806. La señal casi periódica, S, se proporciona también a la lógica de estimación de fase de bucle cerrado 806. La lógica de estimación de fase de bucle cerrado 806 estima la fase y proporciona la fase estimada, P_{EST}. La fase estimada se basa en un valor de fase inicial, P_{INIT}, que se introduce en la lógica de estimación de fase de bucle cerrado 806. El valor de fase inicial es el valor de fase final estimado de la trama previa de la señal, siempre que la trama previa haya sido clasificada como una trama periódica por la lógica de clasificación 804. Si la trama anterior ha sido clasificada como una trama aperiódica por la lógica de clasificación 804, el valor de fase inicial es el valor de fase medida, P, de la trama anterior.

La fase estimada, P_{EST}, se proporciona a la lógica de cálculo de error 808. La señal casi periódica, S, se proporciona también a la lógica de cálculo de error 808. La fase medida, P, se proporciona también a la lógica de cálculo de error 808. Además, la lógica de cálculo de error 808 recibe una señal sintetizada, S_{SYNTH}', que ha sido sintetizada por la lógica de síntesis 802. La señal sintetizada, S_{SYNTH}', es una señal sintetizada, S_{SYNTH}, que ha sido sintetizada por la lógica de síntesis 802 cuando la fase introducida en la lógica de síntesis 802, P_{OUT}, es igual a la fase estimada, P_{EST}. La lógica de cálculo de error 808 calcula una medida de la distorsión, o medida del error, E, comparando el valor de la fase medida con el valor de la fase estimada. En una forma de realización alternativa, la lógica de cálculo de error 808 calcula una medida de la distorsión, o medida del error, E, comparando la trama de entrada de la señal casi periódica con la trama sintetizada de la señal casi periódica.

La medida de la distorsión, E, se proporciona a la lógica de comparación 810. La lógica de comparación 810 compara la medida de distorsión, E, con un valor umbral predefinido, T. Si la medida de distorsión, E, es superior al valor umbral predefinido, T, la fase medida, P, se iguala a P_{OUT}, el valor de fase que se proporciona a la lógica de síntesis 802. Por otra parte, si la medida de distorsión, E, no es mayor que el valor umbral predefinido, T, la fase estimada, P_{EST}, se iguala a P_{OUT}, el valor de fase que se proporciona a la lógica de síntesis 802.

Hasta aquí la descripción de un procedimiento y un aparato nuevo para realizar el seguimiento de la fase de una señal casi periódica. Los expertos en la materia sobrentenderán que los diversos bloques lógicos ilustrativos y las etapas de algoritmo descritas con referencia a las formas de realización dadas a conocer en la presente memoria pueden implementarse o realizarse con un procesador de señales digitales (DSP), un circuito integrado de aplicaciones específicas (ASIC), una lógica de compuerta o transistor discreto, componentes de hardware discretos, tales como registros y un FIFO, un procesador que ejecuta un conjunto de instrucciones de firmware o cualquier módulo de software programable convencional y un procesador. El procesador puede ser ventajosamente un microprocesador, pero como alternativa puede ser cualquier procesador, controlador, microcontrolador o máquina de estados convencional. El módulo de software puede residir en memoria RAM, memoria flash, registros o cualquier otra forma de medios de almacenamiento grabables conocidos en la técnica. Los expertos sobrentenderán además que los datos, las instrucciones, los mandatos, la información, las señales, los bits, los símbolos y los segmentos a los cuales puede haberse hecho referencia en la descripción anterior son representados ventajosamente mediante tensiones, corrientes, ondas electromagnéticas, campos o partículas magnéticas, campos o partículas ópticas o cualquier combinación
de éstos.

Por consiguiente, se han representado y descrito las formas de realización preferidas de la presente invención. Resultará evidente para los expertos en la materia, sin embargo, que es posible realizar numerosas modificaciones a las formas de realización dadas a conocer en la presente memoria sin apartarse por ello del alcance de la presente invención. Por consiguiente, los únicos límites a la presente invención son los impuestos por las reivindicaciones adjuntas.

Claims

1. Procedimiento para realizar el seguimiento de la fase de una señal que es periódica durante algunas tramas y no periódica durante otras tramas, que comprende las etapas siguientes:

estimar la fase de la señal en las tramas durante las cuales la señal es periódica;

supervisar el rendimiento de la fase estimada con una medida de rendimiento de bucle cerrado;

medir la fase de la señal en las tramas durante las cuales la señal es periódica;

proporcionar una fase de salida que es la fase estimada cuando el rendimiento de la fase estimada se encuentra por debajo de un nivel umbral predefinido; y

proporcionar la fase de salida que es la fase medida cuando el rendimiento de la fase estimada se encuentra por encima del nivel umbral predefinido.

2. Procedimiento según la reivindicación 1, que comprende además la etapa de medir la fase de la señal en las tramas durante las cuales la señal es no periódica.

3. Procedimiento según la reivindicación 1, que comprende además la etapa de determinar si la señal es periódica o no periódica en una trama determinada con una decisión de periodicidad de bucle abierto.

4. Procedimiento según la reivindicación 1, en el que la etapa de estimación comprende la etapa de construir una representación polinómica de la fase según un modelo de armónicos.

5. Procedimiento según la reivindicación 1, en el que la etapa de estimación comprende la etapa de establecer un valor de fase inicial igual a un valor de fase final estimado de una trama previa si la trama previa era periódica.

6. Procedimiento según la reivindicación 1, en el que la etapa de estimación comprende la etapa de establecer un valor de fase inicial igual a un valor de fase medido de una trama previa si la trama previa era no periódica.

7. Procedimiento según la reivindicación 6, en el que el valor de fase medida se obtiene a partir de la transformada discreta de Fourier (DFT) de la trama anterior.

8. Procedimiento según la reivindicación 1, en el que la etapa de estimación comprende la etapa de establecer un valor de fase inicial igual a un valor de fase medida de una trama anterior si la trama anterior era periódica y el rendimiento de la fase estimada para la trama anterior se encontraba por debajo del nivel umbral predefinido.

9. Procedimiento según la reivindicación 8, en el que el valor de fase medida se obtiene a partir de la transformada discreta de Fourier (DFT) de la trama anterior.

10. Dispositivo para realizar el seguimiento de la fase de una señal que es periódica durante algunas tramas y no periódica durante otras tramas, que comprende:

unos medios (806) para estimar la fase de la señal en las tramas durante las cuales la señal es periódica;

unos medios (808) para supervisar el rendimiento de la fase estimada con una medida de rendimiento de bucle cerrado;

unos medios (800) para medir la fase de la señal en las tramas durante las cuales la señal es periódica;

unos medios (810) para proporcionar una fase de salida que es la fase estimada cuando el rendimiento de la fase estimada se encuentra por debajo de un nivel umbral predefinido; y

unos medios (810) para proporcionar la fase de salida que es la fase medida cuando el rendimiento de la fase estimada se encuentra por encima del nivel umbral predefinido.

11. Dispositivo según la reivindicación 10, que comprende además unos medios para medir la fase de la señal en las tramas durante las cuales la señal es no periódica.

12. Dispositivo según la reivindicación 10, que comprende además unos medios para determinar si la señal es periódica o no periódica en una trama determinada, con una decisión de periodicidad de bucle abierto.

13. Dispositivo según la reivindicación 10, en el que los medios de estimación comprenden unos medios para construir una representación polinómica de la fase según un modelo de armónicos.

14. Dispositivo según la reivindicación 10, en el que los medios de estimación comprenden unos medios para establecer un valor de fase inicial igual a un valor de fase final estimada de una trama anterior si la trama anterior era periódica.

15. Dispositivo según la reivindicación 10, en el que los medios de estimación comprenden unos medios para establecer un valor de fase inicial igual a un valor de fase medida de una trama anterior si la trama anterior era no periódica.

16. Dispositivo según la reivindicación 15, en el que el valor de fase medida se obtiene a partir de la transformada discreta de Fourier (DFT) de la trama anterior.

17. Dispositivo según la reivindicación 10, en el que los medios de estimación comprenden unos medios para establecer un valor de fase inicial igual a un valor de fase medida de una trama anterior si la trama anterior era periódica y el rendimiento de la fase estimada para la trama anterior se encontraba por debajo del nivel umbral predefinido.

18. Dispositivo según la reivindicación 17, en el que el valor de fase medida se obtiene a partir de la transformada discreta de Fourier (DFT) de la trama anterior.

19. Dispositivo según cualquiera de las reivindicaciones 10 a 18, en el que cada uno de dichos medios comprende una lógica configurada respectivamente.