ES2256022T3

ES2256022T3 - Metodos y aparators para submuestreo de la informacion.

Info

Publication number: ES2256022T3
Application number: ES00948764T
Authority: ES
Inventors: Sharath Manjunath
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-07-19
Filing date: 2000-07-18
Publication date: 2006-07-16
Anticipated expiration: 2020-07-18
Also published as: KR100752001B1; CN1279510C; ATE379832T1; WO2001006492A1; JP2008040509A; US6397175B1; HK1091583A1; EP1204968B1; US7085712B2; US20020095283A1; DE60037286T2; AU6221600A; ES2297578T3; JP4861271B2; HK1047816A1; EP1617416A3; DE60023913D1; ATE309600T1; EP1617416B1; US20050119880A1

Abstract

Un método para procesar un prototipo de una trama en un codificador de voz, comprendiendo el método: producción (602, 606) de una pluralidad de parámetros de fase de un prototipo de referencia; generación (604, 608) de una pluralidad de parámetros de fase del prototipo, caracterizado por: correlación (614) de los parámetros de fase del prototipo con los parámetros de fase del prototipo de referencia en cada una de una pluralidad de bandas de frecuencia.

Description

Método y aparato para submuestreo de la información.

Antecedentes de la invención I. Ámbito de la invención

La presente invención pertenece genéricamente al campo del proceso de voz, y más específicamente a métodos y aparatos para submuestreo de la información de espectro de fase a ser transmitida por un codificador de voz.

II.Antecedentes

La transmisión de voz por técnicas digitales se ha generalizado, particularmente en aplicaciones de larga distancia y radioteléfono digital. Esto, a su vez, ha creado interés en determinar la menor cantidad de información que se puede enviar sobre un canal mientras se mantiene la calidad percibida de la voz reconstruida. Si la voz se transmite simplemente por muestreo y digitalización, se requiere una velocidad de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para lograr una calidad de voz de teléfono analógico convencional. Sin embargo, mediante el uso del análisis de voz, seguido por la adecuada codificación, transmisión, y resintetización en el receptor, se puede lograr una reducción importante en la velocidad de datos.

En muchos campos de las telecomunicaciones se encuentran en uso dispositivos para comprimir voz. Un campo ejemplar es las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas tiene muchas aplicaciones incluyendo, p. ej., teléfonos inalámbricos, radiobúsqueda, bucles locales inalámbricos, telefonía inalámbrica como sistemas telefónicos celulares y PCS, telefonía móvil con Protocolo Internet (IP), y sistemas de comunicación por satélite. Una aplicación particularmente importante es la telefonía inalámbrica para abonados móviles.

Se han desarrollado diversas interfases en el aire para sistemas inalámbricos de comunicación incluyendo, p. ej., acceso múltiple por división de frecuencia (FDMA), acceso múltiple por división de tiempo (TDMA), y acceso múltiple por división de código (CDMA). En conexión con esto, se han establecido diversos estándares internos e internacionales incluyendo, p. ej., Servicio Telefónico Móvil Avanzado (AMPS), Sistema Global para Comunicaciones Móviles (GSM), y Estándar Provisional 95 (IS - 95). Un sistema de comunicación ejemplar de telefonía la inalámbrica es un sistema de acceso múltiple por división de código (CDMA). El estándar IS-95 y sus derivados, IS - 95A, ANSI J-STD-008, IS - 95B, propuesta de estándares de tercera generación IS - 95C e IS - 2000, etc. (aquí denominados colectivamente como IS - 95), se promulgaron por la Asociación de Industrias de Telecomunicación (TIA) y otros cuerpos de estándares bien conocidos para especificar el uso de una interfase CDMA en-el-aire para sistemas de comunicación telefónica celular o PCS. Sistemas ejemplares de comunicación inalámbrica configurados substancialmente de acuerdo con el uso del estándar IS-95 se describen en las patentes U.S. Nos. 5,103,459 y 4,901,307, que están asignadas al cesionario de la presente invención.

Los dispositivos que emplean técnicas para comprimir voz extrayendo parámetros que la relacionan con el modelo de humano de generación de voz se llaman codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo, o tramas de análisis. Los codificadores de voz típicamente comprenden un codificador y un decodificador. El codificador analiza la trama de voz entrante para extraer ciertos parámetros relevantes, y entonces cuantifica los parámetros en representación binaria, es decir, en un conjunto de bits o un paquete de datos binarios. Los paquetes de datos se transmiten sobre el canal de comunicación a un receptor y un decodificador. El decodificador procesa los paquetes de datos, los descuantifica para producir los parámetros, y resintetiza las tramas de voz usando los parámetros descuantificados.

La función del codificador de voz es comprimir la señal digitalizada de voz en una señal de baja velocidad de bit quitando todas las redundancias naturales inherentes a la voz. La compresión digital se logra representando la trama de voz entrante con un conjunto de parámetros y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de voz entrante tiene un número de bits N_{i} y los paquetes de datos producidos por el codificador de voz tienen un número de bits N_{o}, el factor de compresión logrado por el codificador de voz es C_{r} = N_{i}/N_{o}. El reto es mantener alta calidad de voz de la voz decodificada al tiempo que se logra el factor de compresión objetivo. El funcionamiento de un codificador de voz depende de (1) cómo funciona el modelo de voz, o la combinación del proceso de síntesis y análisis descritos arriba, y (2) cómo se realiza el proceso de cuantificación de parámetros a la velocidad de bit objetivo de N_{o} bits por trama. La meta del modelo de voz es por tanto capturar la esencia de la señal de voz, o la calidad de voz objetivo, con un conjunto pequeño de parámetros para cada trama.

Quizás lo más importante en el diseño de un codificador de voz es la búsqueda un buen conjunto de parámetros (incluyendo vectores) para describir la señal de voz. Un buen conjunto de parámetros requiere una bajo ancho de banda de sistema para la reconstrucción de una señal de voz perceptivamente precisa. El tono, la potencia de señal, la envolvente espectral, (o formantes), los espectros de amplitud, y los espectros de fase son ejemplos de parámetros de codificación de voz.

Los codificadores de voz pueden implementarse como codificadores en el dominio temporal, que intentan captar la forma de onda de voz en el dominio del tiempo empleando procesamiento de alta resolución en el tiempo para codificar pequeños segmentos de voz (típicamente subtramas de 5 milisegundos (ms)) por vez. Para cada subtrama, se encuentra a partir de un espacio de libro de claves una forma representativa de alta precisión por medio de diversos algoritmos de búsqueda conocidos en la técnica. Alternativamente, los codificadores de voz pueden implementarse como codificadores en el dominio de frecuencia, que intentan captar el espectro de voz a corto plazo de la trama de voz entrante con un conjunto de parámetros (análisis) y emplea un proceso de síntesis correspondiente para recrear la forma de onda de voz a partir de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código según conocidas técnicas de cuantificación descritas en A. Gersho & R.M. Gray, Cuantificación Vectorial y Compresión de Señal (1992).

Un bien conocido codificador de voz en el dominio del tiempo es el codificador Lineal Predictivo Activado por Código (CELP) descrito en L. B. Rabiner & R.W. Schafer, Procesamiento Digital de Señales de Voz 396-453 (1978). En un codificador CELP, las correlaciones a corto plazo, o redundancias, en la señal de voz son eliminadas mediante análisis predictivo lineal (LP), que encuentra los coeficientes de un filtro formante a corto plazo. Aplicando el filtro de predicción a corto plazo a la trama entrante de voz se genera una señal residuo LP, que es adicionalmente modelada y cuantificada con parámetros de filtro de predicción a largo plazo y un subsiguiente libro de claves estocástico. Por tanto, la codificación CELP divide la tarea de codificación de la forma de onda de voz en el dominio del tiempo en tareas separadas de codificar coeficientes de filtro LP a corto plazo y codificar el residuo LP. La codificación en el dominio del tiempo puede realizarse a una velocidad fija (es decir, usando el mismo número de bits, N_{o}, para cada trama) o a una velocidad variable (en que las distintas velocidades de bit se usan para tipos diferentes de contenidos de trama). Los codificadores de velocidad variable intentan usar solo la cantidad de bits necesaria para codificar los parámetros del codec a un nivel adecuado para obtener una calidad objetivo. Un ejemplar de codificador CELP de velocidad variable se describe en la Patente de EE.UU. No. 5,414,796, que se asigna al cesionario de la presente la invención.

Los codificadores en el dominio del tiempo como el codificador CELP típicamente se basan en un número alto de bits, N_{o}, por trama para conservar la exactitud forma de onda de voz del dominio del tiempo. Tales codificadores típicamente entregan voz de óptima calidad suponiendo que el número de bits, N_{o}, por la trama es relativamente grande (p. ej., 8 kbps o más). Sin embargo, a bajas velocidades de bit (4 kbps y menos), los codificadores en el dominio del tiempo fallan en mantener una calidad alta y un funcionamiento robusto debido al número limitado de bits disponibles. A baja velocidad de bit, el limitado espacio de libro de claves recorta la capacidad de emparejamiento de forma de onda de codificadores convencionales en el dominio del tiempo, que tan exitosamente se utilizan en aplicaciones comerciales de mayor velocidad. Por esto, a pesar de las mejoras en el tiempo, muchos sistemas de codificación CELP que operan a baja velocidad de bit sufren de distorsión perceptivamente importante típicamente caracterizada como ruido.

Hay actualmente una ola de interés investigador y una fuerte necesidad comercial de desarrollar un codificador de alta calidad operando a velocidades de bit de medias a bajas (es decir, en el rango de 2.4 a 4 kbps y menor). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía por Internet, diversas aplicaciones multimedia y de audio sin descarga, correo vocal, y otros sistemas de almacenaje de voz. Las fuerzas impulsoras son la necesidad de alta capacidad y la demanda de funcionamiento robusto bajo situaciones de pérdida de paquetes. Varios esfuerzos recientes de estandarización de codificación de voz son otra fuerza impulsora directa propulsando la investigación y desarrollo de algoritmos de codificación de voz de baja velocidad. Un codificador de voz de baja velocidad crea más canales, o usuarios, por ancho de banda de aplicación admisible, y un codificador de voz de baja velocidad acoplado con una capa adicional de codificación de canal apropiada puede ajustar la cuenta total de bits de especificaciones de codificador y entregar un funcionamiento robusto bajo condiciones de error de canal.

Una técnica efectiva para codificar voz eficientemente a baja velocidad de bit es la codificación multimodo. Una técnica ejemplar de codificación multimodo se describe en la Patente de EE.UU. No. 6,691,084, titulada "Codificación de voz a velocidad variable", asignada al cesionario de la presente invención. Los codificadores convencionales multimodo aplican diferentes modos, o algoritmos de codificación-decodificación, a tipos diferentes de tramas de voz entrantes. Cada modo, o proceso de codificación-decodificación se personaliza para representar óptimamente un cierto tipo de segmento de voz, como, p. ej., voz hablada, voz sorda, voz de transición (p. ej., entre hablada y sorda), y ruido de fondo (sin voz) en la manera más eficiente. Un mecanismo de decisión externo en modo de bucle abierto examina la trama vocal entrante y toma una decisión con respecto a qué modo aplicar a la trama. La decisión en modo bucle abierto se realiza típicamente extrayendo varios parámetros de la trama entrante, evaluando los parámetros con respecto a cierta características temporales y espectrales, y basando una decisión de modo en la evaluación.

Los sistemas de codificación que operan a velocidad del orden de 2.4 kbps son generalmente paramétricos por naturaleza. Esto es, estos sistemas de codificación operan transmitiendo parámetros que describen el período de tono y la envolvente espectral (o formantes) de la señal de voz a intervalos regulares. El sistema vocodificador LP es ilustrativo de estos así llamados codificadores paramétricos.

Los vocodificadores LP modelan una señal de voz hablada con un pulso único por período de tono. Esta técnica básica puede ser aumentada para incluir información de transmisión sobre la envolvente espectral, entre otras cosas. Aunque los vocodificadores LP proporcionan un funcionamiento generalmente razonable, pueden introducir distorsión perceptivamente significativa, típicamente caracterizada como zumbido.

En años recientes, han surgido codificadores que son híbridos de ambos codificadores de forma de onda y codificadores paramétricos. Ilustrativo de estos llamado codificadores híbridos es el llamado sistema de codificación de voz de interpolación de forma de onda prototipo (PWI). El sistema de codificación PWI puede también ser conocido como codificador de voz de periodo de tono prototipo (PPP) . Un sistema de codificación PWI proporciona un método eficiente para codificar voz hablada. El concepto básico de PWI está en extraer un ciclo representativo de tono (la forma de onda prototipo) a intervalos fijos, para transmitir su descripción, y para reconstruir la señal de voz interpolando entre las formas de onda prototipo. El método PWI puede operar sobre la señal residual LP o sobre la señal de voz. Un codificador de voz PWI o PPP ejemplar se describe en la Patente de EE.UU. No. 6,456,964 titulada "Codificación de voz periodica", asignada al cesionario de la presente invención. Otros codificadores de voz PWI, o PPP se describen en la patente U.S. No. 5,884,253 y en W. Bastiaan Kleijn & Wolfgang Granzow Métodos para Interpolación de Forma de Onda en Codificación de Voz, en 1 Proceso de Señal Digital 215-230 (1991).

En muchos codificadores de voz convencionales, los parámetros de fase de un prototipo determinado de tono son cada uno individualmente cuantificados y transmitidos por el codificador. Alternativamente, los parámetros de fase pueden ser cuantificados como vector a fin de conservar ancho de banda. Sin embargo, en un codificador de voz de baja velocidad, es ventajoso transmitir el menor número posible de bits para mantener una calidad satisfactoria de voz. Por esta razón, en algunos codificadores convencionales de voz, los parámetros de fase no pueden transmitirse por el codificador de ninguna manera, y el decodificador puede o no usar las fases para la reconstrucción, o usar un conjunto de parámetros de fase fijos almacenados. En ambos casos la calidad de voz resultante puede degradarse. Por tanto, sería deseable proporcionar un codificador de voz de baja velocidad que reduzca el número de elementos necesarios para transmitir la información de espectro de fase desde el codificador al decodificador, transmitiendo así menos información de fase. Por tanto, hay una necesidad de un codificador de voz que transmita menos parámetros de fase por trama.

La Patente US No. 5,884,253 describe un sistema de codificación de voz que proporciona voz hablada reconstruida con una forma de onda de ciclo de tono suavemente envolvente. Una señal de voz se representa aislando y codificando formas de onda prototipo. Cada forma de onda prototipo es un ciclo de tono ejemplar de voz hablada. Una forma de onda prototipo codificada se transmite a intervalos regulares a un receptor que sintetiza (o reconstruye) una estimación del segmento original de voz basado en los prototipos. La estimación de la señal original de voz es proporcionada por un proceso de interpolación de prototipo que proporciona una evolución suave en el tiempo de formas de onda de ciclo de tono en la voz reconstruida. Una trama de voz original es codificada primero filtrando la trama con un filtro predictivo lineal y se identifica y extrae un ciclo de tono como forma de onda prototipo. La forma de onda prototipo se representa entonces como un conjunto de coeficientes de series de Fourier (dominio de frecuencia). El período de tono y los coeficientes de Fourier del prototipo, así como también los parámetros del filtro predictivo lineal, se usan para representar una trama de voz original. Estos parámetros son codificados por cuantificación vectorial y escalar y se comunican sobre un canal a un receptor que usa la información que representa dos tramas consecutivas para reconstruir la anterior de las dos de tramas con base en un proceso de interpolación continuo de forma de onda prototipo. La interpolación de forma de onda puede combinarse con técnicas convencionales CELP para codificar porciones sordas de la señal original de voz.

Resumen de la invención

La presente invención va dirigida a un codificador de voz que transmite menos parámetros de fase por trama. Consiguientemente, en un de aspecto de la invención, un método para procesar un prototipo de una trama en un codificador de voz incluye convenientemente producir una pluralidad de parámetros de fase de un prototipo de referencia, generar una pluralidad de parámetros de fase del prototipo, y correlacionar los parámetros de fase del prototipo con los parámetros de fase del prototipo de referencia en cada una de una pluralidad de bandas de frecuencia.

En otro aspecto de la invención, un método para procesar un prototipo de una trama en un codificador de voz incluye convenientemente producir una pluralidad de parámetros de fase de un prototipo de referencia, generar una pluralidad valores lineales de desplazamiento de fase asociados con el prototipo, y componer un vector de fase a partir de los parámetros de fase y de los valores lineales de desplazamiento de fase a través de cada una de una pluralidad de bandas de frecuencia.

En otro aspecto de la invención, un método para procesar un prototipo de una trama en un codificador de voz incluye convenientemente producir una pluralidad de valores circulares de rotación asociados con el prototipo, generar una pluralidad de formas de onda pasabanda en cada una de una pluralidad de bandas de frecuencia, la pluralidad de formas de onda pasabanda estando asociada con una pluralidad de parámetros de fase de un prototipo de referencia, y modificar la pluralidad de formas de onda pasabanda en cada una de la pluralidad de bandas de frecuencia basado en la pluralidad de valores circulares de rotación.

En otro aspecto de la invención, un codificador de voz incluye ventajosamente medios para producir una pluralidad de parámetros de fase de un prototipo de referencia de una trama, medios para generar una pluralidad de parámetros de fase de un prototipo actual de una trama actual, y medios para correlacionar los parámetros de fase del prototipo actual con los parámetros de fase del prototipo de referencia en cada una de una pluralidad de bandas de frecuencia.

En otro aspecto de la invención, un codificador de voz incluye ventajosamente medios para producir una pluralidad de parámetros de fase de un prototipo de referencia de una trama, medios para generar una pluralidad lineal valores de desplazamiento de fase asociados con un prototipo actual de una trama actual, y medios para componer un vector de fase a partir de los parámetros de fase y los valores de desplazamiento de fase a través de cada una de una pluralidad de bandas de frecuencia.

En otro aspecto de la invención, un codificador de voz ventajosamente incluye medios para producir una pluralidad de valores circulares de rotación asociados con un prototipo actual de una trama actual, medios para generar una pluralidad formas de onda pasabanda en cada una de una pluralidad de bandas de frecuencia, la pluralidad de formas de onda pasabanda estando asociada con una pluralidad de parámetros de fase de un prototipo de referencia de una trama, y medios para modificar la pluralidad de formas de onda pasabanda en cada una de la pluralidad de bandas de frecuencia basado en la pluralidad de valores circulares de rotación.

Descripción breve de los dibujos

La Fig. 1 es un diagrama de bloques de un sistema de teléfono inalámbrico.

La Fig. 2 es un diagrama de bloques de un canal de comunicación terminado en cada extremo por codificadores de voz.

La Fig. 3 es un diagrama de bloques de un codificador.

La Fig. 4 es un diagrama de bloques de un decodificador.

La Fig. 5 es un diagrama de flujo que ilustra un proceso de decisión de codificación de voz.

La Fig. 6A es un diagrama de amplitud de señal de voz en función del tiempo, y la Fig. 6B es un diagrama de amplitud de residuo de predicción lineal (LP) en función del tiempo.

La Fig. 7 es un diagrama de bloques de un codificador de voz de periodo de tono prototipo.

La Fig. 8 es un diagrama de bloques de un cuantificador de prototipo que puede usarse en el codificador de voz de la Fig. 7.

La Fig. 9 es un diagrama de bloques de un descuantificador de prototipo que puede usarse en el codificador de voz de la Fig. 7.

La Fig. 10 es un diagrama de bloques de un descuantificador de prototipo que puede usarse en el codificador de voz de la Fig. 7.

Descripción detallada de las realizaciones preferidas

Las realizaciones ejemplares descritas en lo que sigue radican en un sistema inalámbrico de comunicación telefónica configurado para emplear una interfase aérea CDMA. No obstante, se entenderá por aquellos con experiencia en la técnica que un método y aparato de submuestreo que incluye los aspectos de la invención inmediata pueden incluirse en cualquiera de los diversos sistemas de comunicación que emplean una gama amplia de tecnologías conocidas por aquellos con experiencia en la técnica.

Como se ilustra en la Fig. 1, un sistema telefónico inalámbrico CDMA genéricamente incluye una pluralidad de unidades móviles de abonado 10, una pluralidad de estaciones base 12, controladores de estación base (BSCs) 14, y un centro conmutador móvil (MSC) 16. El MSC 16 se configura para tener interfase con una red telefónica convencional pública conmutada (PSTN) 18. El MSC 16 también se configura para tener interfase con las BSCs 14. Las BSCs 14 se acoplan a las estaciones base 12 por medio de líneas de retroceso. Las líneas de retroceso pueden configurarse para soportar cualquiera de varios interfases conocidos incluyendo, p. ej., E1/T1, ATM, IP, PPP, Repetidor de Trama, HDSL, ADSL, o xDSL. Se entiende que puede haber más de dos BSCs 14 en el sistema. Cada estación base 12 incluye convenientemente por lo menos un sector (no mostrado), cada sector comprende una antena omnidireccional o una antena que apunta en una dirección particular separada radialmente de la estación base 12. Alternativamente, cada sector poder comprender dos antenas para diversidad de recepción. Cada estación base 12 puede diseñarse convenientemente para soportar una pluralidad de asignaciones de frecuencia. La intersección de un sector y de una asignación de frecuencia puede denominarse como canal CDMA. Las estaciones base 12 pueden también ser conocidas como subsistemas transceptores de estación base (BTSs) 12. Alternativamente, "estación base" puede usarse en la industria para referirse colectivamente a una BSC 14 y una o más BTSs 12. Las BTSs 12 puede también se denominan "sitios de célula" 12. Alternativamente, los sectores individuales de una BTS determinada 12 pueden denominarse como sitios de célula. Las unidades móviles de abonado 10 son típicamente teléfonos celulares o PCS 10. El sistema se configura convenientemente para su uso según el Estándar IS-95.

Durante el funcionamiento típico del sistema telefónico celular, las estaciones base 12 reciben conjuntos de señales de enlace ascendente desde conjuntos de unidades móviles 10. Las unidades móviles 10 mantienen llamadas telefónicas u otras comunicaciones. Cada señal de enlace ascendente recibida por una determinada estación base 12 se procesa dentro de esa estación base 12. Los datos resultantes se remiten a la BSC 14. La BSC 14 proporciona asignación de recursos de llamada y funcionalidad de gestión de movilidad incluyendo la organización de traspasos suaves entre las estaciones base 12. La BSC 14 también encamina los datos recibidos al MSC 16, que proporciona servicios adicionales de enrutamiento para el interfase con la PSTN 18. Igualmente, la PSTN 18 tiene interfases con el MSC 16, y el MSC 16 tiene interfases con la BSC 14, que a su vez controla la estaciones base 12 para transmitir conjuntos de señales de enlace ascendente a conjuntos de unidades móviles 10.

En la Fig. 2 un primer codificador 100 recibe muestras de voz digitalizada s(n) y codifica las muestras s(n) para su transmisión sobre un medio de transmisión 102, o canal de comunicación 102, a un primer decodificador 104. El decodificador 104 decodifica las muestras de voz codificadas y sintetiza una señal de voz de salida S_{SYNTH}(n). Para la transmisión en la dirección opuesta, un segundo codificador 106 codifica muestras de voz digitalizada s(n), que se transmiten sobre un canal de comunicación 108. Un segundo decodificador 110 recibe y decodifica las muestras de voz codificadas, generando una señal de salida de voz sintetizada S_{SYNTH}(n).

Las muestras de voz s(n) representan señales de voz que se han digitalizado y cuantificado de conformidad con cualquiera de los diversos métodos conocidos en la técnica incluyendo, p. ej., modulación de código de impulso (PCM), ley \mu o ley A comprimida expandida. Como es conocido en la técnica, la muestras de voz s(n) se organizan en tramas de datos entrantes donde cada trama comprende un número predeterminado de muestras de voz digitalizada
s(n). En una realización ejemplar, se emplea un valor de muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras. En las realizaciones descritas más adelante, el valor de transmisión de datos puede variarse convenientemente sobre la base de trama a trama desde 13.2 kbps (valor total) a 6.2 kbps (valor medio) a 2.6 kbps (valor cuarto) a 1 kbps (valor octavo). Variar la velocidad de transmisión de datos es ventajoso porque se puede emplear selectivamente una velocidad de bit inferior para tramas que contienen relativamente menos información de voz. Como se entenderá por aquellos con experiencia en la técnica, pueden usarse otras velocidades de muestreo, tamaños de trama, y velocidades de transmisión de datos.

El primer codificador 100 y el segundo decodificador 110 juntos comprenden un primer codificador de voz, o codec de voz. El codificador de voz podría usarse en cualquier dispositivo de comunicación para transmitir señales de voz, incluyendo, p. ej., las unidades de abonado, BTSs, o BSCs descritas arriba con referencia a la Fig. 1. Igualmente, el segundo codificador 106 y el primer decodificador 104 juntos comprenden un segundo codificador de voz. Se entiende por aquellos con experiencia en la técnica que esos codificadores de voz pueden implementarse con un procesador digital de señal (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puertas discretas, microprogramación, o cualquier módulo convencional de software programable y un microprocesador. El módulo de software podría radicar en memoria RAM, memoria flash, registros, o cualquier otra forma de medio grabable de almacenaje conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador, o máquina de estados podría sustituirse por el microprocesador. La patente US No. 5,727,123, asignada al cesionario de la presente invención, y la patente US No. 5,784,532, asignada al cesionario de la presente invención, describen ASICs ejemplares diseñados específicamente para codificación de voz.

En la Fig. 3 un codificador 200 que puede usarse en un codificador de voz incluye un módulo de decisión de modo 202, un módulo de estimación de tono 204, un módulo de análisis LP 206, un filtro de análisis LP 208, un módulo de cuantificación LP 210, y un módulo de cuantificación de residuo 212. Se proporcionan tramas de voz entrantes s(n) al módulo de decisión de modo 202, al módulo de estimación de tono 204, al módulo de análisis LP 206, y al filtro de análisis LP 208. El módulo de decisión de modo 202 produce un índice de modo I_{M} y un modo M basados en la periodicidad, la energía, la relación señal - ruido (SNR), o la tasa de cruce por cero, entre otros aspectos, de cada trama de voz entrante s(n). En la patente U.S. No. 5,911,128, asignada al cesionario de la presente invención, se describen diversos métodos para clasificar tramas de voz según su periodicidad. Tales métodos se incorporan también en los Estándares Provisionales de la Asociación de Industrias de Telecomunicación TIA/EIA IS - 127 y TIA/EIA IS - 733. Un esquema ejemplar de modo de decisión se describe también en la antes citada patente U.S. No. 6,691,084.

El módulo de estimación de tono 204 produce un índice de tono I_{P} y un valor de retardo P_{0} basados en cada trama de voz entrante s(n). El módulo de análisis LP 206 realiza análisis predictivo lineal sobre cada trama de voz entrante s(n)
para generar un parámetro LP a. El parámetro LP a se proporciona al módulo de cuantificación LP 210. El módulo de cuantificación LP 210 también recibe el modo M, realizando por medio de eso el proceso de cuantificación de una manera modo - dependiente. El módulo de cuantificación LP 210 produce un índice LP I_{LP} y un parámetro cuantificado LP \hat{a}. El filtro de análisis LP 208 recibe el parámetro cuantificado LP \hat{a} además de la trama de voz entrante s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], que representa el error entre las tramas de voz entrantes s(n) y la voz reconstruida basándose en los parámetros pronosticados lineales cuantificados \hat{a}. El residuo LP R[n], el modo M, y el parámetro cuantificado LP \hat{a} se proporcionan al módulo de cuantificación de residuo 212. Basado en estos valores, el módulo de cuantificación de residuo 212 produce un índice de residuo I_{R} y una señal de residuo cuantificada \hat{R}[n].

En la Fig. 4 un decodificador 300 que puede usarse en un codificador de voz incluye un módulo de decodificación de parámetro LP 302, un módulo de decodificación de residuo 304, un módulo de decodificación de modo 306, y un filtro de síntesis LP 308. El módulo de decodificación de modo 306 recibe y decodifica un índice de modo I_{M}, generando a partir del mismo un modo M. El módulo de decodificación de parámetro LP 302 recibe el modo M y un índice LP I_{LP}. El módulo de decodificación de parámetro LP 302 decodifica los valores recibidos para producir un parámetro cuantificado LP \hat{a}. El módulo de decodificación de residuo 304 recibe un índice de residuo I_{R}, un índice de tono I_{P}, y el índice de modo I_{M}. El módulo de decodificación de residuo 304 decodifica los valores recibidos para generar una señal cuantificada de residuo \hat{R}[n]. La señal cuantificada de residuo \hat{R}[n] y el parámetro cuantificado LP \hat{a} se proporcionan al filtro de síntesis LP 308, que a partir de ahí sintetiza una señal de voz de salida decodificada \hat{s}[n].

El funcionamiento e implementación de los diversos módulos del codificador 200 de la Fig. 3 y del decodificador 300 de la Fig. 4 se conocen en la técnica y se describen en la antes citada patente U.S. No. 5,414,796 y en L.B. Rabiner & R.W. Schafer, Procesamiento Digital de Señales de Voz 396-453 (1978).

Como se ilustra en el diagrama de flujo de la Fig. 5, un codificador de voz de acuerdo con una realización sigue un conjunto de pasos en el procesamiento de muestras de voz para transmisión. En el paso 400 el codificador de voz recibe muestras digitales de una señal de voz en tramas sucesivas. Tras recibir una trama determinada, el codificador de voz continua hasta el paso 402. En el paso 402 el codificador de voz detecta la energía de la trama. La energía es una medida de la actividad vocal de la trama. La detección de voz se realiza sumando los cuadrados de las amplitudes de las muestras digitalizadas de voz y comparando la energía resultante con un valor umbral. En una realización, el valor de umbral se adapta basándose en el nivel cambiante de ruido de fondo. Un detector de actividad de voz de umbral variable ejemplar se describe en la antes citada patente U.S. No. 5,414,796. Algunos sonidos sordos de voz pueden ser muestras de energía sumamente baja que pueden ser codificados erróneamente como ruido de fondo. Para impedir esto, la inclinación espectral de muestras de baja energía puede usarse para distinguir la voz sorda del ruido de fondo, como se describe en la antes citada patente U.S. No. 5,414,796.

Después de detectar la energía de la trama, el codificador de voz continúa hasta el paso 404. En el paso 404 el codificador de voz determina si la energía detectada de trama es suficiente para clasificar la trama como las que contienen información de voz. Si la energía detectada de trama cae por debajo de un nivel umbral predefinido, el codificador de voz continúa hasta el paso 406. En el paso 406 el codificador de voz codifica la trama como ruido de fondo (es decir, sin voz, o silencio). En una realización la trama de ruido de fondo se codifica a una velocidad 1/8, o 1 kbps. Si en el paso 404 la energía detectada de trama alcanza o excede el nivel de umbral predefinido, la trama se clasifica como voz y el codificador de voz continúa hasta el paso 408.

En el paso 408 el codificador de voz determina si la trama es voz sorda, es decir, el codificador de voz examina la periodicidad de la trama. Los diversos métodos conocidos de determinación de periodicidad incluyen, p. ej., el uso de cruces por cero y el uso de funciones de autocorrelación normalizadas (NACFs). En particular, el uso de cruces por cero y de NACFs para detectar la periodicidad se describe en la antes citada patente U.S. No. 5,911,128 y en la patente U.S. No. 6,691,084. Además, los anteriores métodos usados para distinguir voz hablada de voz sorda se incorporan en los Estándares Provisionales de la Asociación de Industrias de Telecomunicación TIA/EIA IS - 127 y TIA/EIA IS - 733. Si se determina que la trama es voz sorda en el paso 408, el codificador de voz continúa hasta el paso 410. En el paso 410 el codificador de voz codifica la trama como voz sorda. En una realización, las tramas de voz sorda son codificadas a velocidad un cuarto, o 2.6 kbps. Si en el paso 408 la trama no es determinada como voz sorda, el codificador de voz continúa hasta el paso 412.

En el paso 412 el codificador de voz determina si la trama es voz transicional, usando los métodos de detección de periodicidad que se conocen en la técnica, como los descritos en, p. ej., la antes citada patente U.S. No. 5,911,128. Si la trama se determina que es voz transicional, el codificador de voz continúa hasta el paso 414. En el paso 414 la trama se codifica como voz de transición (es decir, transición desde voz sorda a voz hablada). En una realización, la trama de voz de transición se codifica de acuerdo con un método de codificación interpolativo multipulso descrito en la patente U.S. No. 6,260,017, titulada "Codificación interpolativa multipulso de tramas de voz de transicion", asignada al cesionario de la presente invención. En otra realización la trama de voz de transición se codifica a velocidad plena, o 13.2 kbps.

Si en el paso 412 el codificador de voz determina que la trama no es voz transicional, el codificador de voz continúa hasta el paso 416. En el paso 416 el codificador de voz codifica la trama como voz hablada. En una realización las tramas de voz pueden ser codificadas a velocidad mitad, o 6.2 kbps. Es también posible codificar tramas de voz hablada a velocidad total, o 13.2 kbps (o velocidad total, 8 kbps, en un codificador CELP 8k). Aquellos con experiencia en la técnica apreciarán, sin embargo, que codificando las tramas habladas a velocidad mitad permite al codificador ahorrar un valioso ancho de banda explotando la naturaleza constante de las tramas habladas. Adicionalmente, sin considerar la velocidad usada para codificar la voz hablada, la voz hablada se codifica ventajosamente usando información de tramas pasadas, y de aquí se dice codificada predictivamente.

Aquellos con experiencia apreciarán que la señal de voz o el correspondiente residuo LP pueden codificarse siguiendo los pasos mostrados en la Fig. 5. Las características de forma de onda de ruido, pueden verse como una función del tiempo en el diagrama de la Fig. 6A. Las características de forma de onda de ruido, de residuo LP sordo, de transición, y hablado puede verse como una función del tiempo en el diagrama de la Fig. 6B.

En una realización un codificador de voz de período de tono prototipo (PPP) 500 incluye un filtro inverso 502, un extractor de prototipo 504, un cuantificador de prototipo 506, un descuantificador de prototipo 508, un módulo de interpolación/síntesis 510, y un módulo de síntesis LPC 512, como se ilustra en la Fig. 7. El codificador de voz 500 puede implementarse ventajosamente como parte de un DSP, y puede radicar en p. ej., una unidad de abonado o estación base en un PCS o sistema celular telefónico o en una unidad de abonado o en una unidad de acceso de sistema de satélite.

En el codificador de voz 500, una señal digitalizada de voz s(n), donde n es el número de trama, se proporciona al filtro inverso LP 502. En una realización particular, la longitud de trama es de veinte ms. La función de transferencia del filtro inverso A(z) se calcula según la ecuación siguiente:

A(z) = 1 - a_{1} z^{-1} - a_{2} z^{-2} ...a_{p} z^{-p},

donde los coeficientes a_{1} son las etapas de filtro con valores predefinidos elegidos según métodos conocidos, como el descrito en la antes citada patente U.S. No. 5,414,796 y patente U.S. No. 6,456,964. El número p indica el número de muestras previas que el filtra inverso LP 502 usa para fines de predicción. En una realización particular, p se fija en diez.

El filtro inverso 502 proporciona una señal residual LP r(n) al extractor de prototipo 504. El extractor de prototipo 504 extrae un prototipo a partir de la trama actual. El prototipo es una porción de la trama actual que será interpolado linealmente por el módulo de interpolación/síntesis 510 con prototipos de tramas previas que estaban ubicadas de forma similar dentro de la trama a fin de reconstruir la señal residual LP en el decodificador.

El extractor de prototipo 504 proporciona el prototipo al cuantificador de prototipo 506, que cuantifica el prototipo según una técnica descrita más adelante con referencia a la Fig. 8. Los valores cuantificados, que pueden ser obtenidos a partir de una tabla de búsqueda (no mostrada), se ensamblan en un paquete, que incluye retardo y otros parámetros de libro de claves, para su transmisión sobre el canal. El paquete se proporciona a un transmisor (no mostrado) y se transmite sobre el canal al receptor (asimismo no mostrado). El filtro inverso LP 502, el extractor de prototipo 504, y el cuantificador de prototipo 506 se dice que realizan el análisis PPP sobre la trama actual.

El receptor recibe el paquete y proporciona el paquete al descuantificador de prototipo 508. El descuantificador de prototipo 508 descuantifica el paquete según una técnica descrita más adelante con referencia a la Fig. 9. El descuantificador de prototipo 508 proporciona el prototipo descuantificado al módulo de interpolación/síntesis 510. El módulo de interpolación/síntesis 510 interpola el prototipo con prototipos de tramas previas que estaban ubicados de forma similar dentro de la trama a fin de reconstruir la señal residual LP para la trama actual. La interpolación y síntesis de trama se realiza ventajosamente según métodos conocidos descritos en la patente U.S. No. 5,884,253 y en la antes citada patente U.S. No. 6,456,964.

El módulo de interpolación/síntesis 510 proporciona la señal residual LP reconstruida \hat{r}(n) al módulo de síntesis LPC 512. El módulo de síntesis LPC 512 también recibe valores de par espectral de línea (LSP) desde el paquete transmitido, que se usar para realizar filtrado LPC sobre la señal residual LP reconstruida \hat{r}(n) para crear la señal de voz reconstruida \hat{s}(n) para la trama actual. En una realización alternativa, la síntesis LPC de la señal de voz \hat{s}(n) puede realizarse para el prototipo con anterioridad a hacer interpolación/síntesis de la trama actual. El descuantificador de prototipo 508, el módulo de interpolación/síntesis 510, y el módulo de síntesis LPC 512 se dice que realizan la síntesis PPP de la trama actual.

En una realización, un prototipo cuantificador 600 realiza la cuantificación de fases de prototipo usando submuestreo inteligente para transmisión eficiente, como se muestra en la Fig. 8. El prototipo cuantificador 600 incluye un primer y un segundo módulos de cómputo de coeficientes de series discretas de Fourier (DFS) 602, 604, un primer y un segundo módulos de descomposición 606, 608, un módulo de identificación de banda 610, un cuantificador de amplitud de vector 612, un módulo de correlación 614, y un cuantificador 616.

En el cuantificador de prototipo 600, un prototipo de referencia se suministra al primer módulo de cómputo de coeficientes DFS 602. El primer módulo de cómputo de coeficientes DFS 602 computa los coeficientes DFS para el prototipo de referencia, como se describe más adelante, y proporciona los coeficientes DFS para el prototipo de referencia al primer módulo de descomposición 606. El primer módulo de descomposición 606 descompone los coeficientes DFS para el prototipo de referencia en vectores de amplitud y fase, como se describe más adelante. El primer módulo de descomposición 606 proporciona los vectores de amplitud y fase al módulo de correlación 614.

El prototipo actual se suministra al segundo módulo de cómputo de coeficientes DFS 604. El segundo módulo de cómputo de coeficientes DFS 604 calcula los coeficientes DFS para el prototipo actual, como se describe más adelante, y proporciona los coeficientes DFS para el prototipo actual al segundo módulo de descomposición 608. El segunda módulo de descomposición 608 descompone los coeficientes DFS para el prototipo actual en vectores de amplitud y fase, como se describe más adelante. El segundo módulo de descomposición 608 proporciona los vectores de amplitud y fase al módulo de correlación 614.

El segundo módulo de descomposición 608 también proporciona los vectores de amplitud y fase para el prototipo actual al módulo de identificación de banda 610. El módulo de identificación de banda 610 identifica bandas de frecuencia para correlación, como se describe más adelante, y proporciona índices de identificación de banda al módulo de correlación 614.

El segundo módulo de descomposición 608 también proporciona el vector de amplitud para el prototipo actual al cuantificador de vector de amplitud 612. El cuantificador de vector de amplitud 612 cuantifica el vector de amplitud para el prototipo actual, como se describe más adelante, y genera parámetros de cuantificación de amplitud para la transmisión. En una realización particular, el cuantificador de vector de amplitud 612 proporciona valores de amplitud cuantificada al módulo de identificación de banda 610 (esta conexión no se muestra en el dibujo con fines de claridad) y/o al módulo de correlación 614.

El módulo de correlación 614 correlaciona en todas las bandas de frecuencia para determinar el desplazamiento lineal óptimo de fase para todas las bandas, como se describes más adelante. En una realización alternativa, se realiza correlación cruzada en la dominio de tiempo sobre la señal pasabanda para determinar la rotación circular óptima para todas las bandas, como se describe también más adelante. El módulo de correlación 614 proporciona valores de desplazamiento lineal de fase al cuantificador 616. En una realización alternativa, el módulo de correlación 614 proporciona valores de rotación circular al cuantificador 616. El cuantificador 616 cuantifica los valores recibidos, como se describe más adelante, generando parámetros de cuantificación de fase para la transmisión.

En una realización, un descuantificador de prototipo 700 realiza la reconstrucción del espectro de fase de prototipo usando desplazamientos lineales sobre las bandas constituyentes de frecuencia de un DFS, como se muestra en la Fig. 9. El descuantificador de prototipo 700 incluye un módulo de cómputo de coeficientes DFS 702, un módulo de cómputo inverso DFS 704, un módulo de descomposición 706, un módulo de combinación 708, un módulo de identificación de banda 710, un descuantificador de vector de amplitud 712, un módulo de composición 714, y un descuantificador de fase 716.

En el descuantificador de prototipo 700, se proporciona un prototipo de referencia al módulo de cómputo de coeficientes DFS 702. El módulo de cómputo de coeficientes DFS 702 calcula los coeficientes DFS para el prototipo de referencia, como se describe más adelante, y proporciona los coeficientes DFS para el prototipo de referencia al módulo de descomposición 706. El módulo de descomposición 706 descompone los coeficientes DFS para el prototipo de referencia en vectores de amplitud y fase , como se describe más adelante. El módulo de descomposición 706 proporciona fases de referencia (es decir, el vector de fase del prototipo de referencia) al módulo de composición 714.

Los parámetros de cuantificación de fase son recibidos por el descuantificador de fase 716. El descuantificador de fase 716 descuantifica los parámetros de cuantificación de fase recibidos, como se describe más adelante, generando valores lineales de desplazamiento de fase . El descuantificador de fase 716 proporciona los valores lineales de desplazamiento de fase al módulo de composición 714.

Los parámetros de cuantificación de vector de amplitud son recibidos por el descuantificador de vector de amplitud 712. El vector descuantificador 712 descuantifica los parámetros recibidos de cuantificación de amplitud, como se describe más adelante, generando valores de amplitud descuantificada . El descuantificador de vector de amplitud 712 proporciona los valores descuantificados de amplitud al módulo de combinación 708. El descuantificador de vector de amplitud 712 también proporciona los valores descuantificados de amplitud al módulo de identificación de banda 710. El módulo de identificación de banda 710 identifica bandas de frecuencia para combinación, como se describe más adelante, y proporciona índices de identificación de banda al módulo de composición 714.

El módulo de composición 714 compone un vector modificado de fase a partir los valores de fase de referencia y de desplazamiento lineal de fase, como se describe más adelante. El módulo de composición 714 proporciona valores modificados de vector de fase al módulo de combinación 708.

El módulo de combinación 708 combina la valores descuantificados de amplitud y los valores de fase, como se describe más adelante, generando un vector reconstruido de coeficientes DFS modificados. El módulo de combinación 708 proporciona los vectores combinados de amplitud y fase al módulo de cálculo DFS inverso 704. El módulo de cálculo DFS inverso 704 computa el DFS inverso del vector reconstruido de coeficientes DFS modificados, como se describe más adelante, generando el prototipo actual reconstruido.

En una realización, un descuantificador de prototipo 800 realiza la reconstrucción del espectro de fase de prototipo empleando rotaciones circulares realizadas en el dominio del tiempo sobre formas de onda pasabanda constituyentes de la forma de onda de prototipo en el codificador, como se muestra en la Fig. 10. El descuantificador de prototipo 800 incluye un módulo de cómputo de coeficientes DFS 802, un sumador de forma de onda pasabanda 804, un módulo de descomposición 806, un módulo de creación de señal DFS inverso/pasabanda 808, un módulo de identificación de banda 810, un descuantificador de vector de amplitud 812, un módulo de composición 814, y un descuantificador de fase 816.

En el descuantificador de prototipo 800, se proporciona un prototipo de referencia al módulo de cálculo de coeficientes DFS 802. El módulo de cálculo de coeficientes DFS 802 computa los coeficientes DFS para el prototipo de referencia, como se describe más adelante, y proporciona los coeficientes DFS para el prototipo de referencia al módulo de descomposición 806. El módulo de descomposición 806 descompone los coeficientes DFS para el prototipo de referencia en vectores de amplitud y fase , como se describe más adelante. El módulo de descomposición 806 proporciona fases de referencia (es decir, el vector de fase del prototipo de referencia) al módulo de composición 814.

Los parámetros de cuantificación de fase son recibidos por el descuantificador de fase 816. La descuantificador de fase 816 descuantifica los parámetros recibidos de cuantificación de fase, como se describe más adelante, generando valores de rotación circular. El descuantificador de fase 816 proporciona valores de rotación circular al módulo de composición 814.

Los parámetros de cuantificación de vector de amplitud son recibidos por el descuantificador de vector de amplitud 812. El descuantificador de vector de amplitud 812 descuantifica los parámetros recibidos de cuantificación de amplitud, como se describe más adelante, generando valores descuantificados de amplitud. El descuantificador de vector de amplitud 812 proporciona los valores descuantificados de amplitud al módulo de creación de señal DFS inverso/pasabanda 808. El descuantificador de vector de amplitud 812 también proporciona los valores descuantificados de amplitud al módulo de identificación de banda 810. El módulo de identificación de banda 810 identifica las bandas de frecuencia para combinación, como se describe más adelante, y proporciona índices de identificación de banda al módulo de creación de señal DFS inverso/pasabanda 808.

El módulo de creación de señal DFS inverso/pasabanda 808 combina los valores descuantificados de amplitud y el valor de fase de referencia para cada de las bandas, y calcula una señal pasabanda a partir de la combinación, usando el inverso DFS para cada una de las bandas, como se describe más adelante. El módulo de creación de señal DFS inverso/pasabanda 808 proporciona las señales pasabanda al módulo de composición 814.

El módulo de composición 814 rota circularmente cada de las señales pasabanda usando los valores descuantificados de rotación circular, como se describe más adelante, generando señales modificadas rotadas pasabanda. El módulo de composición 814 proporciona las señales modificadas rotadas pasabanda al sumador de forma de onda pasabanda 804. El sumador de forma de onda pasabanda 804 suma todas las señales pasabanda para generar el prototipo reconstruido.

El prototipo cuantificador 600 de la Fig. 8 y el descuantificador de prototipo 700 de la Fig. 9 sirven en el funcionamiento normal para codificar y decodificar, respectivamente, el espectro de fase de formas de onda de periodo de prototipo de tono. En el transmisor/codificador (Fig. 8), el espectro de fase, \phi^{c}_{k}, del prototipo, s_{C}(n), de la trama actual se calcula usando la representación DFS s_{c}(n) = \sum\limits_{k} C^{c}_{k} e^{jnk(\omega ^{c}_{o})}, donde C^{c}_{k} son los coeficientes complejos DFS del prototipo actual y \omega^{c}_{o} es la frecuencia fundamental normalizada de s_{C}(n). El espectro de fase, \phi^{c}_{k}, es el ángulo de los coeficientes complejos que constituyen el DFS. El espectro de fase, \phi^{r}_{k}, del prototipo de referencia se computa de modo similar para proporcionar C^{r}_{k} y \phi^{r}_{k}. Alternativamente, el espectro de fase, \phi^{r}_{k}, del prototipo de referencia se almacenó después de que se procesó la trama con el prototipo de referencia, y simplemente se recupera del almacenamiento. En una realización particular, el prototipo de referencia es un prototipo de la trama previa.

El complejo DFS para ambos prototipos a partir de ambas, la trama de referencia y la trama actual, puede representarse como el producto de los espectros de amplitud y los espectros de fase, como se muestra en la ecuación siguiente: C^{c}_{k} = A^{c}_{k} e^{j \phi^{c}_{k}} . Debe hacerse notar que ambos, los espectros de amplitud y los espectros de fase, son vectores porque el complejo DFS es también un vector. Cada elemento del vector DFS es un armónico de frecuencia igual al recíproco de la duración de tiempo del correspondiente prototipo. Para una señal de frecuencia máxima de Fm Hz (muestreada a una velocidad de por lo menos de 2 Fm Hz) y una frecuencia de armónico de Fo el Hz, hay M armónicos. El número de armónicos, M, es igual a Fm/Fo. De aquí que, el vector de espectros de fase y el vector de espectros de amplitud de cada prototipo consten de M de elementos.

El vector DFS del prototipo actual ese divide en B bandas y la señal de tiempo que corresponde a cada una de las B bandas es una señal pasabanda. El número de bandas, B, se limita para que sea menos que el número de armónicos, M. Sumando todas las señales de tiempo pasabanda B producirían el prototipo actual original. De igual modo, el vector DFS para el prototipo de referencia es también dividido en las mismas B bandas.

Para cada una de las B bandas, se realiza una correlación cruzada entre la señal pasabanda que corresponde al prototipo de referencia y la señal pasabanda que corresponde al prototipo actual. La correlación cruzada puede realizarse sobre los vectores DFS del dominio de frecuencia, \gamma_{\theta} = (C^{r}_{\{k_{b,}\}} e^{j\{k_{\theta,}\}\theta,})^{T} (^{c}_{\{k_{b,}\}}) donde {k_{b,}} es el conjunto de números armónicos en la iésima banda b_{i}, y \theta, es un desplazamiento de fase lineal posible para la iésima banda b_{i}. La correlación cruzada puede también realizarse sobre las correspondiente señales pasabanda en el dominio del tiempo (por ejemplo, con el descuantificador 800 de la Fig. 10) según la ecuación siguiente:

100

donde L es la longitud en muestras del prototipo actual, \omega^{r}_{o} y \omega^{c}_{o} son las frecuencias fundamentales normalizadas del prototipo de referencia y del prototipo actual, respectivamente, y r_{i} es la rotación circular en muestras. Las señales pasabanda en el dominio del tiempo s^{r}_{b}(n) y s^{c}_{b}(n) correspondientes a la banda b_{i} vienen dadas por, respectivamente, las expresiones siguientes:

101

En una realización el vector cuantificado de amplitud, \hat{A}^{c}_{k}, se usa para obtener C^{c}_{k}, como se muestra en la ecuación siguiente: C^{c}_{k} = \hat{A}^{c}_{k} e^{j \phi ^{c}_{k}}. La correlación cruzada se realiza sobre todos los desplazamientos posibles de fase lineal del vector DFS pasabanda del prototipo de referencia. Alternativamente, la correlación cruzada puede realizarse sobre un subconjunto de todos los desplazamientos posibles de fase lineal del vector DFS pasabanda del prototipo de referencia. En una realización alternativa, se emplea una aproximación en el dominio del tiempo, y la correlación cruzada se realiza sobre todas las rotaciones circulares posibles de las señales de tiempo pasabanda del prototipo de referencia. En una realización la correlación cruzada se realiza sobre un subconjunto de todas las rotaciones circulares posibles de la señal de tiempo pasabanda del prototipo de referencia. El proceso de correlación cruzada genera B desplazamientos lineales de fase (o B rotaciones circulares, en la realización en donde la correlación cruzada se realiza en el dominio del tiempo sobre la señal de tiempo pasabanda) que corresponden a valores máximos de la correlación cruzada para cada una de las B bandas. Los B desplazamientos de fase lineal (o, en la realización alternativa, las B rotaciones circulares) son entonces cuantificados y transmitidos como representativos de los espectros de fase en lugar de M elementos de vector de espectros de fase originales. El vector de espectros de amplitud es cuantificado y transmitido separadamente. Por tanto, los vectores DFS pasabanda (o las señales de tiempo pasabanda) del prototipo de referencia sirven ventajosamente como libro de claves para codificar los correspondiente vectores DFS (o las señales pasabanda) del prototipo de la trama actual. Consiguientemente, se necesitan menos elementos para cuantificar y transmitir la información de fase, efectuando así un submuestreo resultante de información de fase y dando origen a una más eficiente transmisión. Esto es particularmente beneficioso en la codificación de voz a baja velocidad de bit, donde debido a la carencia de bits suficientes, o bien la información de fase se cuantifica muy pobremente debido a la gran cantidad de elementos de fase o bien la información de fase no se transmite en absoluto, cualquiera de las cuales produce una baja calidad. Las realizaciones arriba descritas permiten codificadores de baja velocidad de bit para mantener una buena calidad de voz porque hay menos elementos a cuantificar.

En el receptor/decodificador (Fig. 9) (y también en la copia codificadora del decodificador, como se entenderá por aquellos con experiencia en la técnica), los B valores de desplazamiento de fase lineal se aplican a la copia decodificadora del vector de banda B dividida DFS del prototipo de referencia para generar un vector de fase DFS de prototipo modificado: \phi^{c}_{\{k_{bi}\}} = \phi^{r}_{\{k_{bi}\}} + {k_{bi}} \theta_{bi}. El vector DFS modificado se obtiene entonces como producto del vector de los espectros de amplitud decodificada recibida y del vector de fase DFS prototipo modificado. El prototipo reconstruido se construye entonces usando una operación inversa DFS sobre el vector DFS modificado. En la realización alternativa, donde se emplea un enfoque en el dominio del tiempo, se combinan el vector de espectros de amplitud para cada de las bandas B y el vector de fase del prototipo de referencia para las mismas B bandas, y se realiza una operación DFS inversa sobre la combinación para generar B señales de tiempo pasabanda. Las B señales de tiempo pasabanda son entonces rotadas circularmente usando los B valores circulares de rotación. Todo las B señales de tiempo pasabanda se suman para generar el prototipo reconstruido.

Por tanto, se ha descrito un aparato y método novedosos para submuestreo de información de espectro de fase. Aquellos con experiencia en la técnica comprenderán que los diversos bloques lógicos y pasos de algoritmo ilustrativos descritos en relación con las realizaciones aquí descritas pueden implementarse o realizarse con un procesador digital de señal (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puerta discreta de transistor o , componentes discretos electrónicos tales como, p. ej., registros y FIFO, un procesador que ejecuta un conjunto de instrucciones de microprogramación, o cualquier módulo de software convencional programable y un procesador. El procesador puede ser convenientemente un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador, o máquina de estados convencional. El módulo de software puede residir en memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento grabable conocido en la técnica. Aquellos con experiencia apreciarán además que los datos, instrucciones, comandos, señales de información, símbolos de bit, y chips, que pudieran referenciarse a lo largo de la anterior descripción son representados ventajosamente por voltajes, corrientes, ondas electromagnéticas, partículas o campos magnéticos, partículas o campos ópticos, o cualquier combinación de los mismos.

Por tanto se han mostrado y descrito realizaciones preferidas de la presente invención. Resultará evidente sin embargo a aquellos con experiencia en la técnica, que pueden hacerse numerosas alteraciones a las realizaciones aquí reveladas sin apartarse del alcance de la invención. Por lo tanto, la presente invención no está limitada excepto de acuerdo con las reivindicaciones siguientes.

Claims

1. Un método para procesar un prototipo de una trama en un codificador de voz, comprendiendo el método:

producción (602, 606) de una pluralidad de parámetros de fase de un prototipo de referencia;

generación (604, 608) de una pluralidad de parámetros de fase del prototipo, caracterizado por:

correlación (614) de los parámetros de fase del prototipo con los parámetros de fase del prototipo de referencia en cada una de una pluralidad de bandas de frecuencia.

2. El método de la reivindicación 1, donde:

dicha producción (602,606) comprende calcular (602) coeficientes de series discretas de Fourier para el prototipo de referencia y descomponer (606) coeficientes de series discretas de Fourier en vectores de amplitud y vectores de fase para el prototipo de referencia; y

dicha generación (604,608) comprende calcular (604) coeficientes de series discretas de Fourier para el prototipo y descomponer (608) los coeficientes de series discretas de Fourier en vectores de amplitud y vectores de fase para el prototipo.

3. El método de la reivindicación 1, comprendiendo adicionalmente identificación (610) de las bandas de frecuencia en las que realizar dicha correlación (614).

4. El método de la reivindicación 1, donde dicha correlación (614) genera una pluralidad de valores desplazamiento óptimo de fase lineal para el prototipo.

5. El método de la reivindicación 1, en donde dicha correlación (614) genera una pluralidad de valores óptimos de rotación circular para el prototipo.

6. El método de la reivindicación 4, comprendiendo adicionalmente cuantificación (616) de los valores lineales de desplazamiento de fase y cuantificación (612) de una pluralidad de parámetros de amplitud para el prototipo.

7. El método de la reivindicación 5, comprendiendo adicionalmente cuantificación (616) de los valores de rotación circular y cuantificación (612) de una pluralidad de parámetros de amplitud para el prototipo.

8. Un método para procesar un prototipo de una trama en un codificador de voz, comprendiendo el método:

producción (702,706) de una pluralidad de parámetros de fase de un prototipo de referencia; y

generación (716) de una pluralidad valores lineales de desplazamiento de fase asociados con el prototipo, caracterizado por:

la composición (714) de un vector de fase a partir de los parámetros de fase y de los valores lineales de desplazamiento de fase a través de cada una de una pluralidad de bandas de frecuencia.

9. El método de la reivindicación 8, donde dicha producción (702,706) comprende el cálculo (702) de coeficientes de series discretas de Fourier para el prototipo de referencia y la descomposición (706) de los coeficientes de series discretas de Fourier en vectores de amplitud y vectores de fase para el prototipo de referencia.

10. El método de la reivindicación 8, comprendiendo adicionalmente la identificación (710) de las bandas de frecuencia en las que realizar dicha composición (714).

11. El método de la reivindicación 8, en donde dicha generación (716) comprende la descuantificación de una pluralidad cuantificada de parámetros de fase asociada con el prototipo para generación de la pluralidad de lineal valores de desplazamiento de fase.

12. El método de la reivindicación 10, comprendiendo adicionalmente la descuantificación (712) de una pluralidad parámetros de cuantificación de amplitud asociados con el prototipo para producir una pluralidad de parámetros descuantificados de amplitud, donde dicha identificación (710) comprende la identificación de bandas basada en la pluralidad de parámetros descuantificados de amplitud.

13. El método de la reivindicación 8, comprendiendo adicionalmente:

combinación (708) del vector compuesto de fase con una pluralidad de parámetros de amplitud asociados con el prototipo para producir un vector combinado; y

cálculo (704) de una serie discreta de Fourier inversa del vector combinado para producir una versión reconstruida del prototipo.

14. Un método para procesar un prototipo de una trama en un codificador de voz, comprendiendo el método:

la producción (816) de una pluralidad de valores circulares de rotación asociados con el prototipo, caracterizado por:

la generación (802,806,808) de una pluralidad de formas de onda pasabanda en cada de una de una pluralidad de bandas de frecuencia, estando asociada la pluralidad de formas de onda pasabanda con una pluralidad de parámetros de fase de un prototipo de referencia; y

la modificación (814) de la pluralidad de formas de onda pasabanda en cada de la pluralidad de bandas de frecuencia basada en la pluralidad de valores de rotación circular.

15. El método de la reivindicación 14, comprendiendo adicionalmente la identificación (810) de las bandas de frecuencia en las que realizar dicha generación.

16. El método de la reivindicación 1, 8 o 14, donde la trama es una trama de voz.

17. El método de la reivindicación 1, 8 o 14, donde la trama es una trama de residuo lineal de predicción.

18. El método de la reivindicación 14, donde dicha producción (816) comprende la descuantificación (802,806,808) de una pluralidad de parámetros cuantificados de fase asociados con el prototipo para generar la pluralidad de valores circulares de rotación.

19. El método de la reivindicación 15, comprendiendo adicionalmente la descuantificación (812) de una pluralidad parámetros de cuantificación de amplitud asociados con el prototipo para producir una pluralidad de parámetros de amplitud descuantificados, donde dicha identificación (810) comprende la identificación de bandas basada en la pluralidad de parámetros descuantificados de amplitud.

20. El método de la reivindicación 19, donde dicha generación comprende:

el cálculo (802) de coeficientes de series discretas de Fourier para el prototipo de referencia;

la descomposición (806) de los coeficientes de series discretas de Fourier en un vector de amplitud y un vector de fase para el prototipo de referencia;

la combinación del vector de fase con la pluralidad de parámetros descuantificados de amplitud; y

el cálculo (808) del inverso de series discretas de Fourier del vector de fase para generar la pluralidad de las formas de onda pasabanda.

21. El método de la reivindicación 14, comprendiendo adicionalmente la suma (804) de la pluralidad de formas de onda modificadas pasabanda para producir una versión reconstruida del prototipo.

22. Una codificador de voz, que comprende:

medios (602,606) para la producción de una pluralidad de parámetros de fase de un prototipo de referencia de una trama; y

medios (604,608) para la generación de una pluralidad de parámetros de fase de un prototipo actual de una trama actual, caracterizado por:

medios (614) para la correlación de los parámetros de fase del prototipo actual con los parámetros de fase del prototipo de referencia en cada una de una pluralidad de bandas de frecuencia.

23. El codificador de voz de la reivindicación 22, donde:

los medios (602,606) para la producción comprenden medios (602) para el cálculo de coeficientes de series discretas de Fourier para el prototipo de referencia y medios (606) para la descomposición de los coeficientes de series discretas de Fourier en vectores de amplitud y vectores de fase para el prototipo de referencia; y

los medios (604,608) para generación comprenden medios (604) para el cálculo de coeficientes de series discretas de Fourier para el prototipo actual y medios (608) para la descomposición de los coeficientes de series discretas de Fourier en vectores de amplitud y vectores de fase para el prototipo actual.

\newpage

24. El codificador de voz de la reivindicación 22, comprendiendo adicionalmente medios (610) para identificar la pluralidad de bandas de frecuencia.

25. El codificador de voz de la reivindicación 22, donde los medios (614) para correlación generan una pluralidad de valores de desplazamiento de fase lineal óptima para el prototipo actual.

26. El codificador de voz de la reivindicación 22, donde los medios (614) para correlación generan una pluralidad de valores de rotación óptima circular para el prototipo actual.

27. El codificador de voz de la reivindicación 25, comprendiendo adicionalmente medios (616) para cuantificación de valores lineales de desplazamiento de fase y medios (612) para cuantificación de una pluralidad de parámetros de amplitud para el prototipo actual.

28. El codificador de voz de la reivindicación 26, comprendiendo adicionalmente medios (616) para cuantificación de los valores de rotación circular y medios (612) para cuantificación de una pluralidad de parámetros de amplitud para el prototipo actual.

29. Un codificador de voz, que comprende:

medios (702,706) para producción de una pluralidad de parámetros de fase de un prototipo de referencia de una trama; y

medios (716) para generación de una pluralidad de valores de desplazamiento de fase lineal asociados con un prototipo actual de una trama actual, caracterizado por:

medios (714) para composición de un vector de fase a partir de los parámetros de fase y de los valores de desplazamiento lineal de fase a través de cada una de una pluralidad de bandas de frecuencia.

30. El codificador de voz de la reivindicación 29, donde los medios (702,706) para producción comprenden:

medios (702) para cálculo de coeficientes de series discretas de Fourier para el prototipo de referencia; y

medios (706) para descomposición de los coeficientes de series discretas de Fourier en vectores de amplitud y vectores de fase para el prototipo de referencia.

31. El codificador de voz de la reivindicación 29, comprendiendo adicionalmente medios (710) para identificación de la pluralidad de bandas de frecuencia.

32. El codificador de voz de la reivindicación 29, donde los medios (716) para generación comprenden medios para la descuantificación de una pluralidad de parámetros cuantificados de fase asociados con el prototipo actual para generación de la pluralidad de valores de desplazamiento lineal de fase.

33. El codificador de voz de la reivindicación 31, comprendiendo adicionalmente medios (712) para descuantificación de una pluralidad de parámetros de cuantificación de amplitud asociados con el prototipo actual para producir una pluralidad de parámetros descuantificados de amplitud, donde los medios (710) para identificación comprenden medios para identificación de la pluralidad de bandas basados en la pluralidad de parámetros descuantificados de amplitud.

34. El codificador de voz de la reivindicación 29, comprendiendo adicionalmente:

medios (708) para combinación del vector compuesto de fase con una pluralidad de parámetros de amplitud asociados con el prototipo actual para producir un vector combinado; y

medios (704) para el cálculo de una serie discreta de Fourier inversa del vector combinado para la producción de una versión reconstruida del prototipo actual.

35. Un codificador de voz, que comprende:

medios (816) para producción de una pluralidad de valores circulares de rotación asociados con un prototipo actual de una trama actual, caracterizado por:

medios (802,806,808) para generación de una pluralidad de formas de onda pasabanda en cada una de una pluralidad de bandas de frecuencia, estando asociada la pluralidad de formas de onda pasabanda con una pluralidad de parámetros de fase de un prototipo de referencia de una trama; y

medios (814) para modificación de la pluralidad de formas de onda pasabanda en cada una de la pluralidad de bandas de frecuencia basada en la pluralidad de valores circulares de rotación.

36. El codificador de voz de la reivindicación 35, comprendiendo adicionalmente medios (810) para identificación de la pluralidad de bandas de frecuencia.

37. El codificador de voz de la reivindicación 22, 29 o 35, donde la trama actual es una trama de voz.

38. El codificador de voz de la reivindicación 22, 29 o 35, donde la trama actual es una trama de residuo lineal de predicción.

39. El codificador de voz de la reivindicación 35, donde los medios (816) para producción comprenden medios para descuantificación de una pluralidad de parámetros cuantificados de fase asociados con el prototipo actual para generación de la pluralidad de valores de rotación circular.

40. El codificador de voz de la reivindicación 36, comprendiendo adicionalmente medios (812) para descuantificación de una pluralidad de parámetros de cuantificación de amplitud asociados con el prototipo actual para la producción de una pluralidad de parámetros descuantificados de amplitud, donde los medios para identificación (810) comprenden medios para identificación de bandas basados en la pluralidad de parámetros descuantificados de amplitud.

41. El codificador de voz de la reivindicación 40, donde los medios (802,806,808) para generación comprenden:

medios (802) para cálculo de coeficientes de series discretas de Fourier para el prototipo de referencia;

medios (806) para descomposición de los coeficientes de series discretas de Fourier en un vector de amplitud y un vector de fase para el prototipo de referencia;

medios para combinación del vector de fase con la pluralidad de parámetros descuantificados de amplitud; y

medios (808) para cálculo de series discretas de Fourier inversas del vector de fase para generar la pluralidad de formas de onda pasabanda.

42. El codificador de voz de la reivindicación 35, comprendiendo adicionalmente medios (804) para la suma de la pluralidad de formas de onda modificadas pasabanda para la producción de una versión reconstruida del prototipo actual.

43. El codificador de voz de la reivindicación 22, 29 o 35, en donde el codificador de voz se ubica en una unidad de abonado (10) de un sistema de comunicación inalámbrico.